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IT 产业 在 其 发 展 历程 中 ,经 历 过 几 轮 技术 浪潮 。 如 今 , 大 数据 浪潮 正在 迅速 地 朝 人 们 
涌 来 ,并 将 触及 到 各 个 行业 和 生活 的 许多 方面 。 大 数据 浪潮 将 比 之 前 发 生 过 的 浪潮 更 大 、 触 
及 面 更 广 ,给 人 们 的 工作 和 生活 带 来 的 变化 和 影响 更 深刻 。 

大 数据 的 应 用 激发 了 一 场 思 想 风暴 ,也 悄然 地 改变 了 人 们 的 生活 方式 和 思维 习惯 。 大 
数据 正 以 前 所 未 有 的 速度 颠覆 人 们 探索 世界 的 方法 ,引起 工业 商业、 医学 .军事 等 领域 的 深 
刻 变革 。 因 此 ,在 当前 大 数据 浪潮 的 猛烈 冲击 下 ,各 个 专业 的 高 校 大 学 生 迫 切 需要 充实 和 完 
善 自 己 原 有 的 IT 知识 结构 ,掌握 两 个 “本 领 ”: 一 是 掌握 大 数据 基本 技术 与 应 用 ,使 大 数据 
能 够 为 我 所 用 ; 二 是 挖掘 数据 之 间 隐 藏 的 规律 与 关系 ,使 大 数据 更 好 地 服务 于 社会 发 展 。 
为 此 ,本 书 围绕 大 数据 及 其 相关 技术 这 一 主题 ,采用 深入 浅 出 的 叙述 方式 ,简明 扼要 地 阐述 
大 数据 及 其 相关 最 新 技术 的 基本 理论 .关键 技术 和 实际 应 用 ,目的 是 让 广大 师 生 以 计算 机 公 
共 基 础 课程 为 知识 载体 ,对 大 数据 在 各 个 领域 的 应 用 方法 和 相关 知识 有 所 了 解 。 将 大 数据 
相关 课程 纳入 大 学 基础 教育 中 , 必 将 引领 学 生 更 好 地 把 握 时 代 科 学 发 展 的 脉搏 和 历史 赋予 
的 机 遇 。 

在 编写 原则 上 ,本 书 既 维持 了 大 数据 技术 本 身 应 有 的 系统 性 和 理论 性 ,又 着 重 体现 其 在 
各 个 领域 内 的 应 用 性 与 针对 性 。 本 书 的 一 大 亮点 是 每 章 都 使 用 图 表 对 大 数据 与 传统 数据 处 
理 方式 进行 对 比 。 另 外 ,本 书 注重 启发 式 的 学 习 策略 ,便于 读者 理解 和 人 掌握。 全 书 每 章 均 包 
括 实际 应 用 案例 与 关键 词 注释 ,方便 读者 查阅 和 自学 ,同时 配备 习题 和 参考 答案 。 

全 书 在 内 容 上 共 分 成 11 章 : 第 1 章 大 数据 概论 由 类 岩 编写 ,第 2 章 大 数据 采集 及 预 处 
理由 郑 琳 琳 编写 ,第 3 章 大 数据 分 析 概论 由 刘 尚 辉 编 写 , 第 4 章 大 数据 可 视 化 由 李 静 编写 ， 
第 5 章 Hadoop 概论 由 马 瑾 编写 ,第 6 章 HDFS 和 Common 概论 由 丁 林 编 写 , 第 7 章 
MapReduce 概论 由 徐 东 十 编写 ,第 8 章 NoSQL 概论 由 曹阳 编写 ,第 9 章 Spark 概论 由 庞 东 
兴 编 写 ,第 10 章 云 计算 与 大 数据 由 张 志 常 编写 ,第 11 章 典型 大 数据 解决 方案 由 霍 妍 编写 。 

清华 大 学 出 版 社 对 本 书 的 出 版 做 了 精心 策划 ,充分 论证 ,在 此 向 所 有 参加 编写 的 同事 们 
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内 容 与 要 求 


本 章 主要 涉及 大 数据 技术 简介 、 大 数据 的 技术 架构 、 大 数据 的 整体 技术 、 大 数据 分 
析 4 种 典型 工具 及 大 数据 未 来 发 展 趋势 ,以 便 读 者 更 好 地 了 解 什么 是 大 数据 技术 。 

“大 数据 技术 简介 "一 节 包 含 IT 产业 的 发 展 简 史 、 大 数据 的 主要 来 源 、 数 据 生 成 的 
3 种 主要 方式 、 大 数据 的 特点 、 大 数据 的 处 理 流程 .大 数据 的 数据 格式 、 基 本 特征 和 应 用 
领域 。 了 解 大 数据 的 主要 来 源 , 掌 握 大 数据 的 特点 和 大 数据 的 处 理 流程 。 

“大 数据 的 技术 架构 "一 节 介绍 4 层 堆栈 式 技术 架构 ,包括 基础 层 、 管 理 层 、 分 析 层 
和 应 用 层 。 

“大 数据 的 整体 技术 "一 节 介 绍 数据 采集 数据 存 取 、 基 础 架构 .数据 处 理 、 统 计 分 
析 、 数 据 挖 据 、 模 型 预测 和 结果 呈现 等 大 数据 的 整体 技术 。 

“大 数据 分 析 的 4 种 典型 工具 简介 "一 节 介 绍 的 工具 包括 Hadoop, Spark, Storm 和 
Apache Drill, 

“大 数据 未 来 发 展 趋势 "一 节 中 简介 数据 资源 化 。 随 着 大 数据 应 用 的 发 展 , 大 数据 
资源 成 为 重要 的 战略 资源 .数据 成 为 新 的 战略 制高点 。 


重点 、 难 点 


本 章 重点 是 了 解 大 数据 的 特点 、 特 征 和 大 数据 未 来 发 展 趋势 ,难点 是 了 解 大 数据 技 
术 架 构 和 整体 技术 。 

















@ 大 数据 技术 与 应 上 


大 数据 (Big Data) 指 当 传 统 的 数据 挖掘 和 处 理 技术 对 某 些 数据 无 法 进行 处 理 时 使 用 的 
过 程 。 如 数据 是 非 结构 化 ,时 间 敏 感 或 信息 量 巨 大 ,以 至 于 无 法 通过 关系 数据 库 引 擎 进行 处 
理 的 数据 。 这 些 类 型 的 数据 ,需要 采用 不 同 的 处 理 方法 和 实时 且 具 有 分 布 式 处 理 能 力 的 并 
行 硬件 设备 。 


1.1 大 数据 技术 简介 


大 数据 究竟 是 什么 ” 有 哪些 相关 技术 ?对 普通 人 的 生活 会 有 怎样 的 影响 ? 大 数据 未 来 
的 发 展 趋势 如 何 ?” 本 节 将 一 一 介绍 这 些 问题 。 

早 在 1980 年 ,著名 未 来 学 家 阿尔 文 * 托 夫 勒 便 在 (第 三 次 浪潮 ) 一 书 中 ,将 大 数据 热情 
地 赞颂 为 “第 三 次 浪潮 的 华 彩 乐章 ”。 从 技术 层面 上 看 ,大 数据 无 法 用 单 台 计 算 机 进行 处 理 ， 
而 必须 采用 分 布 式 计算 架构 。 其 特色 在于 对 海量 数据 的 挖掘 ,但 它 又 必须 依托 一 些 现 有 的 
数据 处 理 方法 ,如 云 式 处 理 、 分 布 式 数据 库 \ 云 存储 与 虚拟 化 技术 等 。 

大 数据 是 继 物 联网 之 后 IT 产业 又 一 次 颠覆 性 的 技术 变革 ,其 核心 在 于 为 客户 从 数据 
中 挖掘 出 蕴藏 的 价值 ,而 不 是 软 硬 件 的 堆砌 。 因 此 ,针对 不 同 领域 的 大 数据 应 用 模式 .商业 
模式 的 研究 和 探索 将 是 大 数据 产业 健康 发 展 的 关键 。 


1.1.1 IT 产业 的 发 展 简 史 


可 以 说 IT 产业 的 每 一 个 发 展 阶段 都 是 由 新 兴 的 IT 供应 商 主 导 的 ,虽然 它们 的 起 因 可 
能 是 由 于 军事 方面 或 科学 发 展 的 需要 。 它 们 改变 了 已 有 的 秩序 ,重新 定义 了 计算 机 的 规范 ， 
并 为 进入 IT 领域 的 新 纪元 铺 平 了 道路 。 

20 世纪 60 年 代 和 70 年 代 的 大 型 机 阶段 是 以 Burroughs, Univac, NCR, Control Data 
和 Honeywell 等 公司 为 首 的 。 而 20 世纪 80 年 代 后 ,小 型 机 便 如 雨后春笋 般 涌 现 出 来 ,为首 
的 公司 包括 DEC IBM Data General, Wang, Prime 等 。 

到 了 20 世纪 90 年 代 ,IT 产业 进入 了 微 处 理 器 或 个 人 计算 机 阶段 ,Microsoft( 微 软 )、 
Intel IBM 和 Apple 等 公司 成 为 了 当之无愧 的 领军 者 。 从 20 世纪 90 年 代 中 期 开始 ,IT 产 
业 进 入 了 网 络 化 阶段 。 如 今 , 全 球 在 线 的 人 数 已 经 超过 了 10 亿 , 这 一 阶段 由 Cisco .Google、 
Oracle、.EMC、Salesforce. com 等 公司 领导 ,局 域 网 、 互 联网 和 物 联 网 等 的 发 展 方兴未艾 。IT 
产业 的 下 一 个 阶段 ,也 就 是 本 书 将 介绍 的 内 容 所 描述 的 全 新 的 IT 变革 还 没有 被 正式 命名 ， 
人 们 更 愿意 称 其 为 云 计算 /大 数据 阶段 。 
众所周知 ,目前 数字 信息 每 天 在 无 线 电 波 、 电 话 电路 和 计算 机 电缆 等 媒介 中 川流不息 。 
人 们 周围 到 处 都 是 数字 信息 ,在 高 清 电 视 机 上 看 数字 信息 ,在 互联 网 上 听 数 字 信息 ,人 们 自 
己 也 在 不 断 地 制造 新 的 数字 信息 ,如 每 次 用 数码 照相 机 拍照 后 ,都 会 产生 新 的 数字 信息 ; 通 
过 电子 邮件 把 照片 发 给 朋友 和 家 人 ,同样 制造 了 许多 数字 信息 。 不 过 , 没 人 知道 这 些 流 式 数 
字 信 息 有 多 少 , 增 加 速度 有 多 快 ,其 激增 意味 着 什么 。 

2007 年 是 有 史 以 来 人 类 创造 的 信息 量 第 一 次 在 理论 上 超过 可 用 存储 空间 总 量 的 一 年 。 
然而 ,这 并 不 可 怕 , 调 查 结 果 强 调 现 在 人 类 应 该 也 必须 合理 调整 数据 存储 和 管理 。 如 30 多 
年 前 ,通信 行业 的 数据 大 部 分 还 是 结构 化 数据 。 如 今 ,多 媒体 技术 的 普及 导致 非 结 构 化 数据 
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如 音乐 和 视频 等 的 数量 出 现 爆炸 式 增长 。 虽 然 30 多 年 前 的 一 个 普通 企业 用 户 文件 也 许 表 
现 为 数据 库 中 的 一 排 数字 ,但 是 如 今 的 类 似 普通 文件 可 能 包含 许多 数字 化 图 片 和 文件 的 影 
像 或 者 数字 化 录音 内 容 。 现 在 ,94% 以 上 的 数字 信息 都 是 半 结 构 化 或 非 结构 化 数据 ,在 各 组 
织 和 企业 中 ,它们 占 到 了 所 有 信息 数据 总 量 的 80% 以 上 。 

另外 ,可 视 化 是 引起 数字 世界 急速 膨胀 的 主要 原因 之 一 。 由 于 数码 照相 机 数码 监控 摄 
像 机 和 数字 电视 内 容 的 加 速 增 长 及 信息 的 大 量 复制 趋势 ,使 得 数字 世界 的 容量 和 膨胀 速度 
超过 此 前 估计 。 同 时 个 人 日 常生 活 的 “数字 足迹 ?也 大 大 地 刺激 了 数字 世界 的 快速 增长 。 通 
过 互联 网 及 社交 网 络 .电子 邮件 、 视 频 、 移 动 电话 、 数 码 照 相机 和 在 线 信用 卡 交易 等 多 种 方 
式 , 每 个 人 的 日 常生 活 都 在 被 “数字 化 ” ,数字 世界 的 规模 从 2006 一 2011 年 5 年 间 约 膨胀 了 
10 倍 , 如 图 1-1 所 示 。 


1773 艾 字 节 





2006 2007 2008 2009 2010 2011 
173 艾 字 节 


图 1-1 2006 一 2011 年 全 球 数字 信息 的 增长 


大 数据 快速 增长 的 原因 之 一 是 智能 设备 的 普及 ,如 传感器 、 医 疗 设备 及 智能 建筑 (如 楼 
宇和 桥梁 )。 此 外 , 非 结构 化 信息 ,如 文件 .电子 邮件 和 视频 ,将 占 到 未 来 10 年 新 生 数 据 的 
90%。 非 结构 化 信息 增长 的 男 一 个 原因 是 由 于 高 宽带 数据 的 增长 ,如 视频 。 

用 户 手中 的 手机 和 移动 设备 是 数据 量 爆炸 的 一 个 重要 原因 。 目 前 ,全 球 手机 用 户 共 拥 
有 50 亿 台 手机 ,其 中 20 亿 台 为 智能 手机 ,相当 于 20 世纪 80 年 代 20 亿 台 IBM 的 大 型 机 在 
消费 者 手 里 。 

大 数据 正在 以 不 可 阻拦 的 磅 克 气 势 ,与 当代 同样 具有 革命 意义 的 最 新 科技 进步 (如 虚拟 
现实 技术 、 增 强 现实 技术 、 纳 米 技术 、 生 物 工程 移动 平台 应 用 等 ) 一 起 , 揭 开 人 类 新 世纪 的 
序幕 。 

大 数据 时 代 已 悄然 地 来 到 人 们 身边 ,并 渗透 到 每 个 人 的 日 常生 活 之 中 , 谁 都 无 法 回避 。 
它 提供 了 光怪陆离 的 全 媒体 ,难以 琢磨 的 云 计 算 、 无 法 抵御 的 虚拟 仿真 环境 和 随处 可 在 的 网 
络 服 务 。 随 着 互联 网 技术 的 蓬勃 发 展 , 人 们 一 定 会 迎 来 大 数据 的 智能 时 代 , 即 大 数据 技术 和 
生活 紧密 相连 , 它 再 也 不 仅仅 是 人 们 津津 乐 道 的 一 种 时 尚 ,而 是 成 为 生活 上 的 向 导 和 助手 。 
中 国 大 数据 市 场 的 应 用 展望 如 图 1-2 所 示 。 
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图 1-2 中 国 大 数据 市 场 的 应 用 展望 


1.1.2 大 数据 的 主要 来 源 


大 数据 的 来 源 非常 广泛 ,如 信息 管理 系统 、 网 络 信 息 系统 、 物 联网 系统 、 科 学 实验 系统 
等 ,其 数据 类 型 包括 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 

(1) 信息 管理 系统 : 企业 内 部 使 用 的 信息 系统 ,包括 办 公 自 动 化 系统 、 业 务 管理 系统 
等 。 信 息 管理 系统 主要 通过 用 户 输 入 和 系统 二 次 加 工 的 方式 产生 数据 ,其 产生 的 大 数据 大 
多 数 为 结构 化 数据 ,通常 存储 在 数据 库 中 。 

(2) 网 络 信息 系统 : 基于 网 络 运行 的 信息 系统 即 网 络 信息 系统 是 大 数据 产生 的 重要 方 
式 , 如 电子 商务 系统 .社交 网 络 、. 社 会 媒体 .搜索 引擎 等 都 是 常见 的 网 络 信息 系统 。 网 络 信息 
系统 产生 的 大 数据 多 为 半 结 构 化 或 非 结 构 化 的 数据 。 

(3) 物 联网 系统 : 物 联 网 是 新 一 代 信 息 技术 ,其 核心 和 基础 仍然 是 互联 网 ,是 在 互联 网 
基础 上 的 延伸 和 扩展 的 网 络 , 其 用 户 端 延伸 和 扩展 到 了 任何 物品 与 物品 之 间 ,进行 信息 交换 
和 通信 ,而 其 具体 实现 是 通过 传 感 技术 获取 外 界 的 物理 、 化 学 和 生物 等 数据 信息 。 

(4) 科学 实验 系统 : 主要 用 于 科学 技术 研究 ,可 以 由 真实 的 实验 产生 数据 ,也 可 以 通过 
模拟 方式 获取 仿真 数据 。 


1.1.3 数据 生成 的 3 种 主要 方式 


从 数据 库 技术 诞生 以 来 ,产生 数据 的 方式 主要 有 3 种 。 

1) 被 动 式 生成 数据 

数据 库 技术 使 得 数据 的 保存 和 管理 变 得 简单 .业务 系统 在 运行 时 产生 的 数据 可 以 直接 
保存 到 数据 库 中 ,数据 随 业 务 系统 运行 而 产生 ,因此 该 阶段 所 产生 的 数据 是 被 动 的 。 

2) 主动 式 生 成 数据 

物 联 网 的 诞生 .使 得 移动 互联 网 的 发 展 大 大 地 加 速 了 数据 的 产生 几率 。 例 如 ,人 们 可 以 
通过 手机 等 移动 终端 ,随时 随地 产生 数据 。 用 户 数据 不 但 大 量 增加 ,同时 用 户 还 主动 提交 了 
自己 的 行为 ,如 实时 发 送 照片 .邮件 和 其 他 信息 ,使 之 进入 了 社交 、 移 动 时 代 。 大 量 移动 终端 
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设备 的 出 现 , 使 用 户 不 仅 主动 提交 自己 的 行为 .还 和 自己 的 社交 圈 进 行 了 实时 互动 ,因此 数 
据 大 量 地 产生 出 来 ,上 且 具有 极其 强烈 的 传播 性 。 显 然 如 此 生成 的 数据 是 主动 的 。 

3) 感知 式 生成 数据 

物 联网 的 发 展 使 得 数据 生成 方式 得 以 彻底 的 改变 。 如 遍布 在 城市 各 个 角落 的 摄像 头等 
数据 采集 设备 源源 不 断 地 自动 采集 并 生成 数据 。 


1.1.4 大 数据 的 特点 


在 大 数据 背景 下 ,数据 的 采集 、 分 析 、 处 理 较 之 传统 方式 有 了 茵 覆 性 的 改变 ,如 表 1-1 
所 示 。 
表 1-1 传统 数据 与 大 数据 的 特点 比较 
传统 数据 大 数据 
数据 产生 方式 | 被 动 采集 数据 主动 生成 数据 
I wa ws ' 利用 大 数据 平台 ,可 对 需要 分 析 事 件 的 数据 进行 密 
数据 采集 密度 | 采样 密度 较 低 ,采样 数据 有 限 度 采样 ,精确 获取 事件 全 局 数据 
利用 大 数据 技术 ,通过 分 布 式 技术 .分 布 式 文件 系 
. 数据 源 获 取 较 为 孤立 ,不 同 数据 555 Ee 
数据 源 之 间 添 加 的 数据 整合 难度 较 大 eaa a 
进行 整合 处 理 
较 大 的 数据 源 、 响 应 时 间 要 求 低 的 应 用 可 以 采取 批 
处 理 方式 集中 计算 ; 响应 时 间 要 求 高 的 实时 数据 处 
理 采用 流 处 理 的 方式 进行 实时 计算 ,并 通过 对 历史 
数据 的 分 析 进 行 预 测 分 析 














大 多 采用 离线 处 理 方式 ,对 生成 
数据 处 理 方式 | 的 数据 集中 分 析 处 理 , 不 对 实时 
产生 的 数据 进行 分 析 








1.1.5 大 数据 的 处 理 流程 


大 数据 的 处 理 流程 可 以 定义 为 在 适合 工具 的 辅助 下 .对 不 同 结构 的 数据 源 进行 汲取 和 
集成 ,并 将 结果 按照 一 定 的 标准 统一 存储 ,再 利用 合适 的 数据 分 析 技 术 对 其 进行 分 析 , 最 后 
从 中 提取 有 益 的 知识 并 利用 恰当 的 方式 将 结果 展示 给 终端 前 的 用 户 。 大 数据 处 理 的 基本 流 
程 如 图 1-3 所 示 。 
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图 1-3 大 数据 处 理 的 基本 流程 
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1. 数据 汲取 与 集成 

由 于 大 数据 处 理 的 数据 来 源 类 型 广泛 ,而 其 第 一 步 是 对 数据 进行 抽取 和 集成 ,从 中 找 出 
关系 和 实体 ,经 过 关联 .聚合 等 操作 ,再 按照 统一 的 格式 对 数据 进行 存储 。 现 有 的 数据 汲取 
和 集成 引擎 有 3 种 : 基于 物化 或 ETL 方法 的 引擎 ,基于 中 间 件 的 引擎 .基于 数据 流 方法 的 
引擎 。 

2. 大 数据 分 析 

大 数据 分 析 是 研究 大 型 数据 集 的 过 程 ,其 中 包含 各 种 各 样 的 数据 类 型 。 大 数据 能 够 揭 
示 隐 藏 的 信息 模式 ,未 知事 物 的 相关 性 市场 趋势 .客户 偏好 和 其 他 有 用 的 商业 信息 ,其 分 析 
结果 可 用 于 更 有 效 的 市 场 营 销 、 得 到 新 的 收入 机 会 .更 好 的 客户 服务 、 提 高 运营 效率 、 竞 争 优 
势 和 其 他 商业 利益 。 大 数据 分 析 是 大 数据 处 理 流 程 的 核心 步骤 ,通过 汲取 和 集成 环节 ,从 不 
同 结构 的 数据 源 中 获得 用 于 大 数据 处 理 的 原始 数据 ,用 户 根据 需求 对 数据 进行 分 析 处 理 , 如 
数据 挖掘 .机 器 学 习 、 数 据 统计 ,数据 分 析 可 以 用 于 决策 支持 .商业 智能 .推荐 系统 、 预 测 系 
统 等 。 

3. 数据 可 视 化 

数据 可 视 化 主要 是 指 借助 于 图 形 化 手段 ,清晰 有 效 地 传达 与 沟通 信息 。 数 据 可 视 化 技 
术 的 基本 思想 是 将 数据 库 中 每 一 个 数据 项 作为 单个 图 元 元 素 表示 ,大 量 的 数据 集合 构成 数 
据 图 像 ,同时 将 数据 的 各 个 属性 值 以 多 维 数据 的 形式 表示 ,可 以 从 不 同 的 维度 观察 数据 ,从 
而 对 数据 进行 更 深入 的 观察 和 分 析 。 而 使 用 可 视 化 技术 可 以 将 处 理 结果 通过 图 形 方式 直观 
地 旦 现 给 用 户 , 如 标签 云 、 历 史 流 、 空 间 信息 等 ,人 机 交互 技术 可 以 引导 用 户 对 数据 进行 逐 
步 分 析 , 参 与 并 理解 数据 分 析 结 果 。 


1.1.6 大 数据 的 数据 格式 


从 IT 角度 来 看 ,信息 结构 类 型 大 致 经 历 了 3 个 阶段 。 必 须 注意 的 是 , 旧 的 阶段 仍 在 不 
断 地 发 展 ,如 关系 数据 库 的 使 用 。 因 此 3 种 数据 结构 类 型 一 直 存 在 ,只 是 在 不 同 阶段 ,其 中 
一 种 结构 类 型 主导 其 他 结构 。 

(1) 结构 化 信息 : 这 种 信息 可 以 在 关系 数据 库 中 找到 ,多 年 来 一 直 主 导 着 IT 应 用 ,是 
关键 任务 OLTP(On-Line Transaction Processing, 联 机 事物 处 理 系统 ) 系 统 业 务 所 依赖 的 
信息 。 另 外 ,这 种 信息 还 可 对 结构 数据 库 信息 进行 排序 和 查询 。 

(2) 半 结 构 化 信息 : 包括 电子 邮件 文字 处 理 文件 及 大 量 保存 和 发 布 在 网 络 上 的 信息 。 
半 结 构 化 信息 是 以 内 容 为 基础 的 ,可 以 用 于 搜索 ,这 也 是 Google( 谷 歌 ) 等 搜索 引擎 存在 的 
理由 。 

(3) 非 结 构 化 信息 : 该 信息 在 本 质 形 式 上 可 认为 主要 是 位 映射 数据 。 数 据 必 须 处 于 一 
种 可 感知 的 形式 中 (如 可 在 音频 .视频 和 多 媒体 文件 中 被 听 或 看 到 ) 。 许 多 大 数据 都 是 非 结 
构 化 的 ,其 庞大 规模 和 复杂 性 需要 高 级 分 析 工 具 来 创建 或 利用 一 种 更 易于 人 们 感知 和 交互 
的 结构 。 


1.1.7 大 数据 的 基本 特征 
从 各 种 各 样 类 型 的 数据 中 ,快速 地 获得 有 价值 信息 的 能 力 就 是 大 数据 技术 。 
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大 数据 呈现 出 “4V10? 的 特征 ,具体 如 下 。 

(1) 数据 量 大 (Volume) : 这 是 大 数据 的 首要 特征 ,包括 采集 .存储 和 计算 的 数据 量 非常 
大 。 大 数据 的 起 始 计量 单位 至 少 是 100TB。 通 过 各 种 设备 产生 的 海量 数据 ,其 数据 规模 极 
为 庞大 ,远大 于 目前 互联 网 上 的 信息 流量 ,PB 级 别 将 是 常态 。 

(2) 多 样 化 (Variety) : 表示 大 数据 种 类 和 来 源 多 样 化 ,具体 表现 为 网 络 日 志 、 音 频 、 视 
频 、 图 片 . 地 理 位 置信 息 等 多 类 型 的 数据 ,多 样 化 对 数据 的 处 理 能 力 提出 了 更 高 的 要 求 , 编 码 
方式 ,数据 格式 、 应 用 特征 等 多 个 方面 都 存在 差异 性 ,多 信息 源 并 发 形成 大 量 的 异 构 数 据 。 

(3) 数据 价值 密度 化 (Value) : 表示 大 数据 价值 密度 相对 较 低 ,需要 很 多 的 过 程 才能 挖 
据 出 来 。 随 着 互联 网 和 物 联网 的 广泛 应 用 ,信息 感知 无 处 不 在 ,信息 量 大 ,但 价值 密度 较 低 ， 
因此 如 何 结 合 业务 逻辑 并 通过 强大 的 机 器 算法 挖掘 数据 价值 是 大 数据 时 代 最 需要 解决 的 
问题 。 

(4) 速度 快 ,时 效 高 (Velocity) : 随 着 互联 网 的 发 展 ,数据 的 增长 速度 非常 快 ,处 理 速度 
也 较 快 ,时 效 性 要 求 也 更 高 。 例 如 ,搜索 引擎 要 求 几 分 钟 前 的 新 闻 能 够 被 用 户 查 询 到 ,个 性 
化 推荐 算法 要 求实 时 完成 推荐 ,这 些 都 是 大 数据 区 别 于 传统 数据 挖掘 的 显著 特征 。 

(5) 数据 是 在 线 的 (On-Line) : 表示 数据 必须 随时 能 调用 和 计算 ,这 是 大 数据 区 别 于 传 
统 数据 的 最 大 特征 。 现 在 谈 到 的 大 数据 不 仅 大 ,更 重要 的 是 数据 是 在 线 的 ,这 是 互联 网 高 速 
发 展 的 特点 和 趋势 。 例 如 ,好 大 夫 在 线 , 患 者 的 数据 和 医生 的 数据 都 是 实时 在 线 的 ,这 样 的 
数据 才 有 意义 。 如 果 把 它们 放 在 磁盘 中 或 者 是 离线 的 ,显然 这 些 数据 远 远 不 及 在 线 的 商业 
价值 大 。 

总 之 ,无 所 通 形 的 大 数据 时 代 已 经 到 来 ,并 快速 地 渗透 到 每 个 职能 领域 ,如 何 借助 大 数 
据 持续 创新 发 展 ,使 企业 成 功 转型 ,具有 非凡 的 意义 。 


1.1.8 大 数据 的 应 用 领域 


大 数据 在 社会 生活 的 各 个 领域 得 到 了 广泛 的 应 用 ,如 科学 计算 ,金融 ,社交 网 络 、 移 动 数 
据 , 物 联网 、 医 疗 、 网 页 数据 、 多 媒体 、 网 络 日 志 、 RFID (Radio Frequency identification 
Devices ,无 线 射频 识别 ) 传 感 器 .社会 数据 ,互联 网 文本 和 文件 .互联 网 搜索 索引 、 呼 叫 详细 
记录 天 文学 .大气 科学 .基因 组 学 .生物 和 其 他 复杂 或 跨 学 科 的 科研 .军事 侦察 .医疗 记录 、 
摄影 档案 馆 视频 档案 ,大 规模 的 电子 商务 等 。 不 同 领域 的 大 数据 应 用 具有 不 同 特点 ,其 响应 
时 间 、 稳 定性 、 精 确 性 的 要 求 各 不 相同 ,解决 方案 也 层出不穷 , 其 中 最 具 代 表 性 的 有 
Information Cloud 解决 方案 、IBM 战略 .Microsoft 战略 、 京 东 框 架 结构 等 ,将 在 后 续 章 节 中 
讨论 。 


1.2 大 数据 的 技术 架构 








各 种 各 样 的 大 数据 应 用 迫切 需要 新 的 工具 和 技术 来 存储 、 管 理 和 实现 商业 价值 ,新 的 工 
具 流程 和 方法 支撑 起 了 新 的 技术 架构 ,使 企业 能 够 建立 、 操 作 和 管理 这 些 超大 规模 的 数据 
集 和 数据 存储 环境 。 

大 数据 的 分 析 能 以 新 视角 挖掘 企业 传统 数据 ,并 带 来 传统 上 未 曾 分 析 过 的 数据 洞察 力 。 
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大 数据 一 般 采 用 4 层 堆 栈 技术 架构 ,如 图 1-4 所 示 。 
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图 1-4 4 层 堆 栈 式 技术 架构 


1. 基础 层 

第 一 层 作为 整个 大 数据 技术 架构 基础 的 最 底层 :也 是 基础 层 。 要 实现 大 数据 规模 的 应 
用 ,企业 需要 一 个 高 度 自动 化 的 .可 横向 扩展 的 存储 和 计算 平台 ,这 个 基础 设施 需要 从 以 前 
的 存储 孤岛 发 展 为 具有 共享 能 力 的 高 容量 存储 池 ,容量 ,性 能 和 吞吐 量 必须 可 以 线性 扩展 。 

2. 管理 层 

大 数据 要 支持 在 多 源 数据 上 做 深层 次 的 分 析 , 在 技术 架构 中 需要 一 个 管理 平台 , 即 
管理 层 使 结构 化 和 非 结 构 化 数据 管理 为 一 体 ,具备 实时 传送 和 查询 ,计算 功能 。 本 层 既 
包括 数据 的 存储 和 管理 ,也 涉及 数据 的 计算 。 并 行 化 和 分 布 式 是 大 数据 管理 平台 所 必须 
考虑 的 要 素 。 

3. 分 析 层 

大 数据 应 用 需要 大 数据 分 析 。 分 析 层 提供 基于 统计 学 的 数据 挖 气 和 机 器 学 习 算 法 ,用 
于 分 析 和 解释 数据 集 , 帮 助 企 业 获 得 深入 的 数据 价值 领 司 。 可 扩展 性 强 、 使 用 灵活 的 大 数据 
分 析 平 台 更 可 成 为 数据 科学 家 的 利器 ,起 到 事半功倍 的 效果 。 

4. 应 用 层 

大 数据 的 价值 体现 在 帮助 企业 进行 决策 和 为 终端 用 户 提供 服务 的 应 用 ,不 同 的 新 型 商 
业 需 求 驱动 了 大 数据 的 应 用 。 反 之 ,大 数据 应 用 为 企业 提供 的 竞争 优势 使 企业 更 加 重视 大 
数据 的 价值 。 新 型 大 数据 应 用 不 断 地 对 大 数据 技术 提出 新 的 要 求 , 大 数据 技术 也 因此 在 不 
断 的 发 展 变化 中 日 趋 成 熟 。 


1.3 大 数据 的 整体 技术 


大 数据 需要 特殊 的 技术 ,以 有 效 地 处 理 在 允许 时 间 范 围 内 的 大 量 数据 。 适 用 于 大 数据 
的 技术 ,包括 大 规模 并 行 处 理 (Massively Parallel Processing. MPP) 数 据 库 ,数据 挖掘 电网 、 
分 布 式 文件 系统 分布 式 数据 库 \、 云 计算 平台 、 互 联网 和 可 扩展 的 存储 系统 。 
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大 数据 的 整体 技术 一 般 包 括 数 据 采 集 .数据 存 取 、 基 础 架构 .数据 处 理 、 统 计 分 析 、 数 据 
挖掘 、 模 型 预测 和 结果 呈现 等 , 它 是 传统 方法 和 新 的 解决 途径 的 完美 结合 。 

(1) 数据 采集 : 将 分 布 的 、 异 构 数 据 源 中 的 数据 如 关系 数据 、 平 面 数据 文件 等 抽取 到 临 
时 中 间 层 后 进行 清洗 、 转 换 、 集 成 ,最 后 加 载 到 数据 仓库 或 数据 集 市 中 ,成 为 联机 分 析 处 理 、 
数据 挖掘 的 基础 。 

(2) 数据 存 取 : 包括 关系 数据 库 .NoSQL .SQL 等 。 

(3) 基础 架构 : 包括 云 存 储 、 分 布 式 文件 存储 等 。 

(4) 数据 处 理 : 主要 指 自然 语言 处 理 (Natural Language Processing, NLP) , 它 是 研究 
人 与 计算 机 交互 的 语言 问题 的 一 门 学 科 。 

(5) 统计 分 析 : 包括 假设 检验 .显著 性 检验 、 差 异 分析 ,相关 分 析 .T 检验 、 方 差分 析 、 卡 
方 分 析 、 偏 相关 分 析 、 距 离 分 析 、 回 归 分 析 、 简 单 回 归 分 析 、 多 元 回归 分 析 、 逐 步 回 归 、 回 归 预 
测 与 残 差分 析 、 岭 回归 、Logistic 回归 分 析 、 曲 线 估计 、 因 子 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 
子 分 析 ,快速 聚 类 法 与 聚 类 法 、 判 别 分 析 、 对 应 分 析 、 多 元 对 应 分 析 ( 最 优 尺度 分 析 )、 
Bootstrap 技术 等 。 

(6) 数据 挖掘 : 相对 传统 的 数据 挖掘 ,大 数据 挖掘 需要 挑战 一 些 新 技术 , 壁 如 通过 分 布 
式 计算 ,内 存 计算 和 列 存储 等 技术 来 处 理 大 数据 量 情 况 的 计算 。 前 端 展 示 分 析 和 挖掘 过 程 
类 似 ,唯一 不 同 的 是 后 台 的 高 性 能 计算 能 力 。 

(7) 模型 预测 : 包括 预测 模型 .机 器 学 习 、 建 模仿 真 等 。 

(8) 结果 呈现 : 包括 云 计 算 ,标签 云 、 关 系 图 等 。 


1.4 大 数据 分 析 的 4 种 典型 工具 简介 


大 数据 分 析 是 在 研究 大 量 的 数据 的 过 程 中 寻找 模式 、 相 关 性 和 其 他 有 用 的 信息 ,以 帮助 
企业 更 好 地 适应 变化 ,并 做 出 更 明智 的 决策 。 

1. Hadoop 

Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ,是 一 个 能 够 让 用 户 轻 松 
架构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 地 在 Hadoop 上 开发 和 运行 处 理 海量 数据 的 
应 用 程序 。 

Hadoop 带 有 用 Java 语言 编写 的 框架 ,因此 运行 在 Linux 平台 上 是 非常 理想 的 。 
Hadoop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ,如 C++ 。 

2. Spark 

Spark 是 一 个 基于 内 存 计算 的 开源 集群 计算 系统 ,目的 是 更 快速 地 进行 数据 分 析 。 
Spark 是 由 加 州 伯克利 大 学 AMP 实验 室 Matei 为 主 的 小 团队 使 用 Scala 开发 的 ,其 核心 部 
分 的 代码 只 有 63 个 Scala 文件 ,非常 轻 量 级 。Spark 提供 了 与 Hadoop 相似 的 开源 集群 计 
算 环境 ,但 基于 内 存 和 迭代 优化 的 设计 .Spark 在 某 些 工作 负载 表现 更 优秀 。 

3. Storm 

Storm 是 一 种 开源 软件 .一 个 分 布 式 、 容 错 的 实时 计算 系统 。Storm 可 以 非常 可 靠 地 处 
理 庞大 的 数据 流 , 用 于 处 理 Hadoop 的 批量 数据 。Storm 很 简单 ,支持 许多 种 编程 语言 ,使 
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用 起 来 非常 有 趣 。Storm 由 Twitter 开源 而 来 .其 他 知名 的 应 用 企业 包括 Groupon .淘宝 、 
支付 宝 、 阿 里 巴巴 、 乐 元 素 、Admaster 等 。 

4. Apache Drill 

为 了 帮助 企业 用 户 寻找 更 为 有 效 、 加 快 Hadoop 数据 查询 的 方法 ,Apache 软件 基金 会 
发 起 了 一 项 名 为 Drill 的 开源 项 目 。 

Drill 项 目 其 实 也 是 从 Google 的 Dremel 项 目 中 获得 灵感 的 ,该 项 目 帮助 Google 实现 
海量 数据 集 的 分 析 处 理 , 包 括 分 析 抓 取 Web 文档 、 跟 踪 安 装 在 Android Market 上 的 应 用 程 
序数 据 、 分 析 垃 圾 邮件 .分析 Google 分 布 式 构建 系统 上 的 测试 结果 等 。 

通过 开发 Apache Drill 开源 项 目 , 组 织 机构 将 有 望 建立 Drill 所 属 的 API 接口 和 灵活 强 
大 的 体系 架构 ,从 而 帮助 支持 广泛 的 数据 源 、 数 据 格 式 和 查询 语言 。 


1.5 大 数据 未 来 发 展 趋势 


大 数据 逐渐 地 成 为 人 们 生活 的 一 部 分 , 它 既 是 一 种 资源 ,又 是 一 种 工具 ,让 人 们 更 好 地 
探索 世界 和 认识 世界 。 大 数据 提供 的 并 不 是 最 终 答案 ,只 是 参考 答案 , 它 为 人 们 提供 的 是 暂 
时 帮助 ,以 便 等 待 更 好 的 方法 和 答案 出 现 。 


1.5.1 数据 资源 化 


资源 化 是 指 大 数据 成 为 企业 和 社会 关注 的 重要 战略 资源 ,并 已 成 为 大 家 争 抢 的 新 焦点 ， 
数据 将 逐渐 地 成 为 最 有 价值 的 资产 。 

随 着 大 数据 应 用 的 发 展 , 大 数据 资源 成 为 重要 的 战略 资源 ,数据 成 为 新 的 战略 制高点 。 
资源 不 仅 指 看 得 见 、 摸 得 着 的 实体 ,如 煤 ` 石 油 . 矿 产 等 ,大 数据 也 已 演变 成 不 可 或 缺 的 资源 。 
《华尔街 日 报 ? 在 题 为 "大 数据 ,大 影响 ”的 报告 中 提 到 ,数据 就 像 货币 或 者 黄金 一 样 ,已 经 成 
为 一 种 新 的 资产 类 别 。 

大 数据 作为 一 种 新 的 资源 ,具有 其 他 资源 所 不 具备 的 优点 ,如 数据 的 再 利用 、 开 放 
性 、 可 扩展 性 和 潜在 价值 。 数 据 的 价值 不 会 随 着 它 的 使 用 而 减少 ,而 是 可 以 不 断 地 被 处 
理 和 利用 。 


1.5.2 数据 科学 和 数据 联盟 的 成 立 


1. 催生 新 的 学 科 和 行业 

数据 科学 将 成 为 一 门 专门 的 学 科 , 被 越 来 越 多 的 人 所 认 知 。 越 来 越 多 的 高 校 开 设 了 与 
大 数据 相关 的 学 科 课程 ,为 市 场 和 企业 培养 人 才 。 

一 个 新 行业 的 出 现 , 必 将 会 增加 工作 职位 的 需求 ,大 数据 催生 了 一 批 与 之 相关 的 新 的 就 
业 岗 位 ,例如 ,大 数据 分 析 师 、 大 数据 算法 工程 师 、 数 据 产品 经 理 、 数 据 管理 专家 等 ,因此 , 具 
有 丰富 经 验 的 大 数据 相关 人 才 将 成 为 稀缺 资源 。 

2. 数据 共享 

大 数据 相关 技术 的 发 展 将 会 创造 出 一 些 新 的 细 分 市 场 ,针对 不 同 的 行业 将 会 出 现 不 同 
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的 分 析 技 术 。 但 是 对 于 大 数据 来 说 ,数据 的 多 少 虽 然 不 意味 着 价值 更 高 ,但 是 数据 越 多 对 一 
个 行业 的 分 析 价值 越 有 利 。 

以 医疗 行业 为 例 , 如 果 每 个 医院 想 要 获得 更 多 病情 特征 库 及 药 效 信息 ,就 需要 对 数据 进 
行 分 析 ,这样 经 过 分 析 之 后 就 能 从 数据 中 获得 相应 的 价值 。 如 果 想 获得 更 多 的 价值 ,就 需要 
对 全 国 甚至 全 世界 的 医疗 信息 进行 共享 。 只 有 这 样 才能 通过 对 整个 医疗 平台 的 数据 进行 分 
析 , 获 取 更 准确 .更 有 利 的 价值 。 因 此 ,数据 可 能 成 为 一 种 共享 的 趋势 。 


1.5.3 大 数据 隐私 和 安全 问题 


L 大 数据 引发 个 人 隐私 企业 和 国家 安全 问题 

大 数据 时 代 将 引发 个 人 隐私 安全 问题 。 在 大 数据 时 代 , 用 户 的 个 人 隐私 数据 可 能 在 不 
经 意 间 就 被 泄露 。 例 如 ,网 站 密码 泄露 .系统 漏洞 导致 用 户 资料 被 盗 . 手 机 里 的 APP 暴露 用 
户 的 个 人 信息 等 。 在 大 数据 领域 ,一 些 用 户 认为 根本 不 重要 的 信息 很 有 可 能 暴露 用 户 的 近 
期 状况 , 带 来 安全 隐患。 

大 数据 时 代 , 企 业 将 面临 信息 安全 的 挑战 。 企 业 不仅 要 学 习 如 何 挖掘 数据 价值 ,还 要 考 
虑 如 何 应 对 网 络 攻击 ,数据 泄露 等 安全 风险 ,并 且 建 立 相关 的 预案 。 在 企业 用 数据 挖掘 和 数 
据 分 析 获 取 商 业 价值 的 同时 ,黑客 也 利用 这 些 数 据 技术 向 企业 发 起 攻击 。 因 此 ,企业 必须 制 
定 相应 的 策略 来 应 对 大 数据 带 来 的 信息 安全 挑战 。 

大 数据 时 代 应 该 将 大 数据 安全 上 升 为 国家 安全 。 数 据 安全 的 威胁 无 处 不 在 ,国家 的 基 
础 设施 和 重要 机 构 所 保存 的 大 数据 信息 ,如 与 石油 .天 然 气 管道 水电、 交通 、 军 事 等 相关 的 
数据 信息 ,都 有 可 能 成 为 黑客 攻击 的 目标 。 

2. 正确 合理 利用 大 数据 ,促进 大 数据 产业 的 健康 发 展 

大 数据 时 代 ,必须 对 数据 安全 和 隐私 进行 有 效 的 保护 ,具体 方法 如 下 。 

D 从 用 户 的 角度 ,积极 探索 ,加 大 个 人 隐私 保护 力度 。 数 据 来 源 于 互联 网 上 无 数 用 户 
产生 的 数据 信息 ,因此 ,建议 用 户 在 运用 互联 网 或 者 APP 时 保持 高 度 警惕 。 

(2) 从 法 律 的 角度 ,提高 安全 意识 ,及 时 地 出 台 相关 政策 ,制定 相关 政策 法 规 ,完善 立 
法 。 国 家 需要 有 专门 的 法 规 来 为 大 数据 的 发 展 扫除 障碍 ,必须 健全 大 数据 隐私 和 安全 方面 
的 法 律 法 规 。 

(3) 从 数据 使 用 者 角度 ,数据 使 用 者 要 以 负责 的 态度 使 用 数据 ,需要 把 进行 隐私 保护 的 
责任 从 个 人 转移 到 数据 使 用 者 身上 。 政 府 和 企业 的 信息 化 建设 必须 拥有 统一 的 规划 和 标 
准 , 只 有 这 样 才能 有 效 地 保护 公民 和 企业 隐私 。 

(4) 从 技术 角度 ,加 快 数据 安全 技术 研发 ,尤其 应 加 强 云 计算 安全 研究 ,保障 云 安全 。 


1.5.4 开源 软件 成 为 推动 大 数据 发 展 的 动力 


大 数据 获得 动力 的 关键 在 于 开放 源 代码 ,帮助 分 解 和 分 析 数据 。 开 源 软件 的 盛行 不 会 
抑制 商业 软件 的 发 展 。 相 反 , 开 源 软 件 将 会 给 基础 架构 硬件 、 应 用 程序 开发 工具 、 应 用 服务 
等 各 个 方面 相关 领域 带 来 更 多 的 机 会 。 

从 技术 的 潮流 来 看 ,无 论 是 大 数据 还 是 云 计算 .其 实 推动 技术 发 展 的 主要 力量 都 来 源 于 
开源 软件 。 使 用 开源 软件 有 诸多 的 优势 ,之 所 以 这 么 说 ,是 因为 开源 的 代码 很 多 人 在 看 、 在 
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1.5.5 大 数据 在 多 方位 改善 人 们 的 生活 


大 数据 作为 一 种 重要 的 战略 资产 ,已 经 不 同 程度 地 渗透 到 每 个 行业 领域 和 部 门 。 现 在 ， 
通过 大 数据 的 力量 ,用 户 希 望 掌 握 真正 的 便捷 信息 ,从 而 让 生活 更 有 趣 。 

例如 ,在 医疗 卫生 行业 ,能 够 利用 大 数据 避免 过 度 治疗 ,减少 错误 治疗 和 重复 治疗 ,从 而 
降低 系统 成 本 ,提高 工作 效率 ,改进 和 提升 治疗 质量 ; 在 健康 方面 ,人 们 可 以 利用 智能 手 环 
来 对 睡眠 模式 进行 检测 和 追踪 ,用 智能 血压 计 来 监控 老人 的 身体 状况 ; 在 交通 方面 ,人 们 可 
以 通过 智能 导航 GPS 数据 来 了 解 交 通 状 况 ,并 根据 交通 拥挤 情况 及 时 地 调整 路 径 。 同 时 ， 
大 数据 也 将 成 为 智能 家 居 的 核心 。 

大 数据 也 将 促进 智慧 城市 的 发 展 , 是 智慧 城市 的 核心 引擎 ,智慧 医疗 .智慧 交通 、 智 慧 安 
防 等 都 是 以 大 数据 为 基础 的 智慧 城市 的 应 用 领域 ,大 数据 将 多 方位 改善 我 们 的 生活 。 


本 章 小 结 


近年 来 大 数据 应 用 带 来 了 令 人 瞩目 的 成 绩 。 作 为 新 的 重要 资源 ,世界 各 国都 在 加 快 大 
数据 的 战略 布局 ,制定 战略 规划 。 

目前 我 国 大 数据 产业 还 处 于 发 展 初期 ,市 场 规模 仍然 比较 小 ,2012 年 仅 为 4.5 亿 元 ,而 
且 主 导 厂 商 仍 以 外 企 居 多 。 据 估计 ,2016 年 我 国 大 数据 应 用 的 整体 市 场 规模 将 突破 百 亿 元 
量 级 ,未 来 将 形成 全 球 最 大 的 大 数据 产业 带 。 

总 而 言 之 ,大 数据 技术 的 发 展 必 将 解 开 宇宙 起 源 的 奥秘 和 对 人 类 社会 未 来 发 展 的 趋势 
有 推动 作用 。 


习题 1 


一 、 填空 题 
1. 大 数据 的 首要 特征 是 指数 据 量 大 ,起 始 计 量 单 位 至 少 是 ， 级 别 将 
是 常态 。 
2. 大 数据 的 数据 结构 特征 包括 ° 
3. 大 数据 的 数据 来 源 非常 多 ,主要 有 a 
4. 自从 数据 库 技术 诞生 以 来 ,生产 数据 的 3 个 主要 方式 分 别 是 a 
5. 大 数据 的 特点 可 以 概括 为 4 个 方面 : 
6. 大 数据 处 理 的 最 基本 流程 可 概括 为 3 个 阶段 是 a 
7. 大 数据 呈现 出 的 "4V10? 特 征 是 ° 
8. 大 数据 的 4 层 堆 栈 式 技术 架构 中 的 4 层 是 a 
9. 大 数据 处 理 整体 技术 一 般 包括 A 
10. 大 数据 处 理 分 析 的 4 种 典型 工具 是 ° 


二 、 简 答题 


> 性 


. 简 述 大 数据 的 特点 。 

. 简 述 大 数据 的 应 用 领域 (5 个 以 上 ) 。 

. 简 述 大 数据 技术 架构 。 

. 简 述 大 数据 在 医疗 上 的 五 大 应 用 领域 。 
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内 容 与 要 求 


本 章 主 要 介绍 大 数据 中 数据 采集 的 概念 、 数 据 来 源 和 技术 方法 ,大 数据 预 处 理 的 方 


法 ,以 及 数据 采集 及 预 处 理 的 几 种 工具 。 


“数据 采集 简介 ”一 节 中 要 理解 数据 采集 的 基本 概念 ,掌握 数据 采集 的 数据 来 源 , 了 


解数 据 采 集 的 技术 方法 。 


“大 数据 的 预 处 理 ” 一 节 中 需 了 解数 据 预 处 理 的 方法 ,包括 数据 清洗 、 数 据 集成 、 数 


据 变换 和 数据 规约 。 


“大 数据 采集 及 预 处 理 的 主要 工具 ”一 节 中 需要 了 解 常 用 工具 ,包括 Flume, 


Logstash、Kibana 和 Ceilometer 等 。 


重点 、 难 点 


本 章 的 重点 是 数据 采集 的 概念 、 数 据 来 源 和 技术 方法 ,难点 是 数据 预 处 理 的 方法 。 


相对 传统 的 数据 采集 ,大 数据 采集 需要 挑战 一 些 新 技术 ,譬如 通过 分 布 式 计 算 , 内 存 计 
算 和 列 存储 等 技术 来 处 理 大 数据 量 情况 的 计算 。 前 端 展示 分 析 和 挖掘 过 程 类 似 , 唯 一 不 同 
的 是 后 台 的 高 性 能 计算 能 力 。 目 前 开源 的 以 Hadoop 为 代表 的 RHadoop 之 类 的 大 数据 分 


析 工 具 . 商 业 分 析 工 具 比 如 IBM, Oracle 和 SAP 等 公司 的 大 数据 分 析 工 具 . 或 者 
公司 大 数据 分 析 工 具 。 


国内 的 一 些 





大 数据 环境 下 ,数据 的 来 源 、 种 类 非常 多 ,其 中 对 数据 存储 和 处 理 的 需求 量 大 ,数据 表达 
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的 要 求 高 ,因此 数据 处 理 的 高 效 性 与 可 用 性 非常 重要 。 为 此 必须 在 数据 的 源头 即 数据 采集 
上 把 好 关 , 其 中 数据 源 的 选择 和 原始 数据 的 采集 方法 是 大 数据 采集 的 关键 。 本 章 将 着 重 介 
绍 大 数据 的 采集 和 预 处 理 。 


2.1 数据 采集 简介 





2.1.1 数据 采集 


大 数据 的 数据 采集 是 在 确定 用 户 目标 的 基础 上 ,针对 该 范围 内 所 有 结构 化 、 半 结构 化 和 
非 结 构 化 的 数据 的 采集 ,采集 后 对 这 些 数 据 进 行 处 理 , 从 中 分 析 和 挖掘 出 有 价值 的 信息 。 在 
大 数据 的 采集 过 程 中 ,其 主要 特点 和 面临 的 挑战 是 成 千 上 万 的 用 户 同 时 进行 访问 和 操作 而 
引起 的 高 并 发 数 。 如 12306 火车 票 售票 网 站 在 2015 年 春运 火车 票 售卖 的 最 高 峰 时 ,网 站 访 
问 量 (PV 值 ) 在 一 天 之 内 达到 破 纪录 的 297 亿 次 。 

在 专家 指导 下 ,利用 高 性 能 计算 体系 结构 ,进行 的 成 指数 增长 的 数据 采集 ,是 一 个 不 断 
增长 的 分 析 所 谓 大 数据 的 过 程 。 高 性 能 的 数据 采集 和 数据 分 析 , 提 供 具 有 高 性 能 计算 的 最 
新 趋势 , 即 全 面 可 视 化 图 形体 系 结构 。 主 要 包括 大 数据 和 高 性 能 计算 分 析 、 大 规模 并 行 处 理 
数据 库 内存 分 析 、 实 现 大 数据 平台 的 机 器 学 习 算 法 .文本 分 析 、 分 析 环 境 、 分 析 生 命 周期 和 
一 般 应 用 ,以 及 各 种 不 同 的 情况 。 

大 数据 出 现 之 前 ,计算 机 所 能 够 处 理 的 数据 都 需要 前 期 进行 相应 的 结构 化 处 理 , 并 存储 
在 相应 的 数据 库 中 。 但 大 数据 技术 对 于 数据 的 结构 要 求 大 大 地 降低 ,互联 网 上 人 们 留 下 的 
社交 信息 、 地 理 位 置信 息 ,行为 习惯 信息 、 偏 好 信息 等 各 种 维度 的 信息 都 可 以 实时 处 理 ,传统 
的 数据 采集 与 大 数据 的 数据 采集 对 比 ,如 表 2-1 所 示 。 

表 2-1 传统 的 数据 采集 与 大 数据 的 数据 采集 对 比 

















传统 的 数据 采集 大 数据 的 数据 采集 
数据 来 源 | 来 源 单一 ,数据 量 相 对 大 数据 较 小 来 源 广泛 ,数据 量 巨 大 
数据 类 型 | 结构 单一 数据 类 型 丰富 ,包括 结构 化 、 半 结构 化 , 非 结构 化 
数据 处 理 | 关系 型 数据 库 和 并 行 数据 仓库 分 布 式 数据 库 


2.1.2 数据 采集 的 数据 来 源 


按照 数据 来 源 划分 ,大 数据 的 三 大 主要 来 源 为 商业 数据 ,互联 网 数据 与 物 联 网 数据 。 其 
中 ,商业 数据 来 自 于 企业 ERP 系统 、 各 种 POS 终端 及 网 上 支付 系统 等 业务 系统 ; 互联 网 数 
据 来 自 于 通信 记录 及 QQ、 微 信 、 微 博 等 社交 媒体 ; 物 联网 数据 来 自 于 射频 识别 装置 .全球 
定位 设备 、 传 感 器 设备 .视频 监控 设备 等 。 

1. 商业 数据 

商业 数据 是 指 来 自 于 企业 ERP(Enterprise Resource Planning, 企 业 资源 计划 ) 系 统 、 各 种 
POS(Point Of Sale) 终 端 及 网 上 支付 系统 等 业务 系统 的 数据 ,是 现在 最 主要 的 数据 来 源 渠 道 。 

世界 上 最 大 的 零售 商 沃 尔 玛 每 小 时 收集 到 2. 5PB 数据 ,存储 的 数据 量 是 美国 国会 图 书 
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馆 的 167 倍 。 沃 尔 玛 详细 记录 了 消费 者 的 购买 清单 、 消 费 额 .购买 日 期 .购买 当天 天 气 和 气 
温 , 通 过 对 消费 者 的 购物 行为 等 非 结构 化 数据 进行 分 析 , 发现 商品 关联 ,并 优化 商品 陈列 。 
沃尔玛 不 仅 采集 这 些 传 统 商业 数据 ,还 将 数据 采集 的 触角 伸 入 到 了 社交 网 络 数据 。 当 用 户 
在 Facebook 和 Twitter 谈论 某 些 产品 或 者 表达 某 些 喜好 时 ,这 些 数据 都 会 被 沃尔玛 记录 下 
来 并 加 以 利用 。 

2. 互联 网 数据 

互联 网 数据 是 指 网 络 空间 交互 过 程 中 产生 的 大 量 数据 ,包括 通信 记录 及 QQ、 微 信 、 微 
博 等 社交 媒体 产生 的 数据 ,其 数据 复杂 且 难 以 被 利用 。 例 如 ,社交 网 络 数据 所 记录 的 大 部 分 
是 用 户 的 当前 状态 信息 ,同时 还 记录 着 用 户 的 年 龄 .性 别 、. 所 在 地 教育 .职业 和 兴趣 等 。 

互联 网 数据 具有 大 量化 、 多 样 化 .快速 化 等 特点 。 

(1) 大 量化 : 在 信息 化 时 代 背 景 下 网 络 空间 数据 增长 迅猛 ,数据 集合 规模 已 实现 从 GB 
到 PB 的 飞跃 ,互联 网 数据 则 需要 通过 ZB 表示 。 在 未 来 互联 网 数据 的 发 展 中 还 将 实现 近 
50 倍 的 增长 ,服务 器 数量 也 将 随 之 增长 ,以 满足 大 数据 存储 。 

(2) 多 样 化 : 互联 网 数据 的 类 型 多 样 化 ,例如 ,结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 
数据 。 互 联网 数据 中 的 非 结构 化 数据 正在 飞速 地 增长 , 据 相关 调查 统计 ,在 2012 年 底 非 结 
构 化 数据 在 网 络 数 据 总 量 中 占 77% 左 右 , 非 结构 化 数据 的 产生 与 社交 网 络 以 及 传感器 技术 
的 发 展 有 着 直接 联系 。 

G) 快速 化 : 互联 网 数据 一 般 情况 下 以 数据 流 形式 快速 产生 , 且 具 有 动态 变化 性 特征 ， 
其 时 效 性 要 求 用 户 必须 准确 掌握 互联 网 数据 流 才能 更 好 地 利用 这 些 数据 。 

3. 物 联网 数据 

物 联 网 是 指 在 计算 机 互联 网 的 基础 上 .利用 射频 识别 ,传感器 、 红 外 感应 器 、 无 线 数据 通 
信 等 技术 ,构造 一 个 覆盖 世界 上 万 事 万 物 的 “The Internet of Things”, 也 就 是 “实现 物 物 相 
连 的 互联 网 络 ”"。 其 内 涵 包 含 两 个 方面 意思 : 一 是 物 联网 的 核心 和 基础 仍 是 互联 网 ,是 在 互联 
网 基础 之 上 延伸 和 扩展 的 一 种 网 络 ; 二 是 其 用 户 端 延伸 和 扩展 到 了 任何 物品 与 物品 之 间 , 进 
行 信息 交换 和 通信 。 物 联网 的 定义 是 : 通过 射频 识别 (Radio Frequency Identification， 
REFID) 装 置 .传感器 .红外 感应 器 .全 球 定位 系统 .激光 扫描 器 等 信息 传 感 设备 , 按 约定 的 协 
议 , 把 任何 物品 与 互联 网 相连 接 ,以 进行 信息 交换 和 通信 ,从 而 实现 智慧 化 识别 、 定 位、 跟踪 、 
监控 和 管理 的 一 种 网 络 体 系 。 

物 联 网 数据 是 除了 人 和 服务 器 之 外 ,在 射频 识别 ,物品 、 设 备 、 传 感 器 等 节点 产生 的 大 量 
数据 ,包括 射频 识别 装置 .音频 采集 器 .视频 采集 器 、 传 感 器、 全球 定位 设备 .办 公设 备 、 家 用 
设备 和 生产 设备 等 产生 的 数据 。 物 联网 数据 的 特点 主要 如 下 。 

(1) 物 联网 中 的 数据 量 更 大 。 物 联网 的 最 主要 特征 之 一 是 节点 的 海量 性 ,其 数量 规模 
远大 于 互联 网 ; 物 联网 节点 的 数据 生成 频率 远 高 于 互联 网 ,如 传感器 节点 多 数 处 于 全 时 工 
作 状 态 ,数据 流 是 持续 的 。 

(2) 物 联 网 中 的 数据 传输 速率 更 高 。 由 于 物 联网 与 真实 物理 世界 直接 关联 ,很 多 情况 
下 需要 实时 访问 、 控 制 相应 的 节点 和 设备 ,因此 需要 高 数据 传输 速率 来 支持 。 

(3) 物 联 网 中 的 数据 更 加 多 样 化 。 物 联网 涉及 的 应 用 范围 广泛 ,包括 智慧 城市 .智慧 交 
通 、 智 慧 物 流 .商品 渊源 .智能 家 居 、 智 慧 医疗 .安防 监控 等 ; 在 不 同 领 域 . 不 同行 业 . 需 要 面 
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对 不 同类 型 .不 同 格式 的 应 用 数据 ,因此 物 联网 中 数据 多 样 性 更 为 突出 。 

(4) 物 联网 对 数据 真实 性 的 要 求 更 高 。 物 联网 是 真实 物理 世界 与 虚拟 信息 世界 的 结 
合 ,其 对 数据 的 处 理 以 及 基于 此 进行 的 决策 将 直接 影响 物理 世界 , 物 联 网 中 数据 的 真实 性 显 
得 尤为 重要 。 

以 智能 安防 应 用 为 例 , 智 能 安防 行业 已 从 大 面积 监控 布点 转变 为 注重 视频 智能 预警 、 分 
析 和 实战 ,利用 大 数据 技术 从 海量 的 视频 数据 中 进行 规律 预测 ,情境 分 析 、 串 并 侦查 、 时 空 分 
析 等 。 在 智能 安防 领域 ,数据 的 产生 、 存 储 和 处 理 是 智能 安防 解决 方案 的 基础 ,只 有 采集 足 
够 有 价值 的 安防 信息 ,通过 大 数据 分 析 以 及 综合 研判 模型 ,才能 制定 智能 安防 决策 。 

所 以 ,在 信息 社会 中 ,几乎 所 有 行业 的 发 展 都 离 不 开 大 数据 的 支持 。 


2.1.3 数据 采集 的 技术 方法 


数据 采集 技术 是 信息 科学 的 重要 组 成 部 分 ,已 广泛 地 应 用 于 国民 经 济 和 国防 建设 的 各 
个 领域 ,并 且 随 着 科学 技术 的 发 展 ,尤其 是 计算 机 技术 的 发 展 与 普及 ,数据 采集 技术 具有 更 
广阔 的 发 展 前 景 。 大 数据 的 采集 技术 为 大 数据 处 理 的 关键 技术 之 一 。 

1. 系统 日 志 采 集 方法 

很 多 互联 网 企业 都 有 自己 的 海量 数据 采集 工具 ,多 用 于 系统 日 志 采 集 , 如 Hadoop 的 
Chukwa、Cloudera 的 Flume、Facebook 的 Scribe 等 。 这 些 系统 采用 分 布 式 架构 ,能 满足 每 
秒 数 百 MB 的 日 志 数 据 采 集 和 传输 需求 ,例如 ,Scribe 是 Facebook 开源 的 日 志 收 集 系 统 , 能 
够 从 各 种 日 志 源 上 收集 日 志 , 存 储 到 一 个 中 央 存 储 系统 (可 以 是 NFS、 分 布 式 文件 系统 等 ) 
上 ,以 便于 进行 集中 统计 分 析 处 理 , 它 为 日 志 的 “分 布 式 收集 ,统一 处 理 提 供 了 一 个 可 扩展 
的 、 高 容错 的 方案 。 

2. 对 非 结构 化 数据 的 采集 

非 结构 化 数据 的 采集 就 是 针对 所 有 非 结构 化 的 数据 的 采集 ,包括 企业 内 部 数据 的 采集 
和 网 络 数据 采集 等 。 企 业内 部 数据 的 采集 是 对 企业 内 部 各 种 文档 .视频 .音频 .邮件 .图片 等 
数据 格式 之 间 互 不 兼容 的 数据 采集 ,具体 采集 方案 可 详 见 第 11 章 大 数据 解决 方案 及 相关 
案例 。 

网 络 数据 采集 是 指 通 过 网 络 候 虫 或 网 站 公开 APIC Application Programming Interface, 
应 用 程序 编程 接口 ) 等 方式 从 网 站 上 获取 互联 网 中 相关 网 页 内 容 的 过 程 ,并 从 中 抽取 出 用 户 
所 需要 的 属性 内 容 。 互 联网 网 页 数据 处 理 ,就 是 对 抽取 出 来 的 网 页 数据 进行 内 容 和 格式 上 
的 处 理 , 转 换 和 加 工 , 使 之 能 够 适应 用 户 的 需求 .并 将 之 存储 下 来 , 供 以 后 使 用 。 该 方法 可 以 
将 非 结 构 化 数据 从 网 页 中 抽取 出 来 ,将 其 存储 为 统一 的 本 地 数据 文件 ,并 以 结构 化 的 方式 存 
储 。 它 支持 图 片 . 音 频 、 视 频 等 文件 或 附件 的 采集 ,附件 与 正文 可 以 自动 关联 。 除 了 网 络 中 
包含 的 内 容 之 外 ,对 于 网 络 流量 的 采集 可 以 使 用 DPI(Deep Packet Inspection, 深 度 包 检测 ) 
或 DFI(Deep/Dynamic Flow Inspection ,深度 /动态 流 检 测 ) 等 带宽 管理 技术 进行 处 理 。 

网 络 怜 虫 是 一 种 按照 一 定 的 规则 自动 地 抓 取 万 维 网 信息 的 程序 或 者 脚本 , 它 是 一 个 自 
动 提取 网 页 的 程序 ,为 搜索 引擎 从 万 维 网 上 下 载 网 页 ,是 搜索 引擎 的 重要 组 成 。 

目前 网 络 数据 采集 的 关键 技术 为 链接 过 滤 ,其 实质 是 判断 一 个 链接 (当前 链接 ) 是 不 是 
在 一 个 链接 集合 (已 经 抓 取 过 的 链接 ) 里 。 在 对 网 页 大 数据 的 采集 中 ,可 以 采用 布 隆 过 滤器 
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(Bloom Filter) 来 实现 对 链接 的 过 滤 。 

3. 其 他 数据 采集 方法 

对 于 企业 生产 经 营 数据 或 学 科研 究 数据 等 保密 性 要 求 较 高 的 数据 ,可 以 通过 与 企业 或 
研究 机 构 合作 ,使 用 特定 系统 接口 等 相关 方式 采集 数据 。 

尽管 大 数据 技术 层面 的 应 用 可 以 无 限 广阔 .但 由 于 受到 数据 采集 的 限制 ,能 够 用 于 商业 
应 用 、 服 务 于 人 们 的 数据 要 远 远 小 于 理论 上 大 数据 能 够 采集 和 处 理 的 数据 。 因 此 ,解决 大 数 
据 的 隐私 问题 是 数据 采集 技术 的 重要 目标 之 一 。 现 阶段 的 医疗 机 构 数据 更 多 来 源 于 内 部 ， 
外 部 的 数据 没有 得 到 很 好 的 应 用 。 对 于 外 部 数据 ,医疗 机 构 可 以 考虑 借助 如 百度 .阿里 、 腾 
讯 等 第 三 方 数据 平台 解决 数据 采集 难题 。 


2.2 大 数据 的 预 处 理 


要 对 海量 数据 进行 有 效 的 分 析 , 应 该 将 这 些 来 自前 端的 数据 导入 一 个 集中 的 大 型 分 布 
式 数 据 库 , 或 者 分 布 式 存储 集群 ,并 且 可 以 在 导入 基础 上 做 一 些 简 单 的 清洗 和 预 处 理工 作 。 
导入 与 预 处 理 过 程 的 特点 和 挑战 主要 是 导入 的 数据 量 大 ,通常 用 户 每 秒 钟 的 导入 量 会 达到 
百 兆 ,甚至 千 兆 级 别 。 

根据 大 数据 的 多 样 性 ,决定 了 经 过 多 种 渠道 获取 的 数据 种 类 和 数据 结构 都 非常 复杂 ,这 
就 给 之 后 的 数据 分 析 和 处 理 带 来 了 极 大 的 困难 。 通 过 大 数据 的 预 处 理 这 一 步骤 ,将 这 些 结 
构 复 杂 的 数据 转换 为 单一 的 或 便于 处 理 的 结构 ,为 以 后 的 数据 分 析 打 下 良好 的 基础 。 由 于 
所 采集 的 数据 里 并 不 是 所 有 的 信息 都 是 必需 的 ,而 是 摊 杂 了 很 多 噪声 和 干扰 项 ,因此 还 需要 
对 这 些 数据 进行 “去 噪 ” 和 "清洗 ”, 以 保证 数据 的 质量 和 可 靠 性 。 常 用 的 方法 是 在 数据 处 理 
的 过 程 中 设计 一 些 数据 过 滤器 ,通过 聚 类 或 关联 分 析 的 规则 方法 将 无 用 或 错误 的 离 群 数据 
挑 出 来 过 滤 掉 ,防止 其 对 最 终 数据 结果 产生 不 利 的 影响 ,然后 将 这 些 整 理 好 的 数据 进行 集成 
和 存储 。 现 在 一 般 的 解决 方法 是 针对 特定 种 类 的 数据 信息 分 门 别 类 的 放置 ,可 以 有 效 地 减 
少数 据 查 询 和 访问 的 时 间 ,提高 数据 提取 速度 。 大 数据 处 理 流程 如 图 2-1 所 示 。 









































原 数据 数据 数据 数据 处 

l m | sa = 信友 P an P as s | 型 

i fi 
数据 预 处 理 














图 2-1 大 数据 处 理 流程 


大 数据 预 处 理 的 方法 主要 包括 数据 清洗 ,数据 集成 ,数据 变换 和 数据 规约 。 

1. 数据 清洗 

数据 清洗 是 在 汇聚 多 个 维度 、 多 个 来 源 、 多 种 结构 的 数据 之 后 ,对 数据 进行 抽取 转换 和 
集成 加 载 。 在 这 个 过 程 中 ,除了 更 正 、 修 复 系统 中 的 一 些 错误 数据 之 外 ,更 多 的 是 对 数据 进 
行 归并 整理 ,并 储存 到 新 的 存储 介质 中 。 

常见 的 数据 质量 问题 可 以 根据 数据 源 的 多 少 和 所 属 层次 分 为 4 类 。 





第 2 章 大 数据 采集 及 预 处 理 





(1) 单数 据 源 定义 层 : 违背 字段 约束 条 件 ( 日 期 出 现 1 月 0 日 )、 字 有 段 属性 依赖 冲突 (两 
条 记录 描述 同一 个 人 的 某 一 个 属性 ,但 数值 不 一 致 ) .违反 唯一 性 (同一 个 主键 ID 出 现 了 
多 次 ) 。 

(2) 单数 据 源 实例 层 : 单个 属性 值 含有 过 多 信息 、 拼 写 错误 、 空 白 值 噪音 数据 、 数 据 重 
复 、 过 时 数据 等 。 

(3) 多 数据 源 定义 层 : 同一 个 实体 的 不 同 称呼 (笔名 和 真名 )、 同 一 种 属性 的 不 同 定义 
(字段 长 度 定义 不 一 致 , 字 段 类 型 不 一 致 等 )。 

Q) 多 数据 源 实例 层 : 数据 的 维度 、 粒 度 不 一 致 (有 的 按 GB 记录 存储 量 , 有 的 按 TB 记 
录 存 储量 ; 有 的 按照 年 度 统计 ,有 的 按照 月 份 统计 ) ,数据 重复 、 拼 写 错误 。 

此 外 ,还 有 在 数据 处 理 过 程 中 产生 的 “二 次 数据 ”, 包 括 数 据 噪声 ,数据 重复 或 错误 的 情 
况 。 数 据 的 调整 和 清洗 涉及 到 格式 ` 测 量 单位 和 数据 标准 化 与 归 一 化 。 数 据 不 确定 性 有 两 
方面 含义 ,数据 自身 的 不 确定 性 和 数据 属性 值 的 不 确定 性 。 前 者 可 用 概率 描述 ,后 者 有 多 重 
描述 方式 ,如 描述 属性 值 的 概率 密度 函数 、 以 方差 为 代表 的 统计 值 等 。 

大 数据 的 清洗 工具 主要 有 DataWrangler 和 Google Refine 等 。DataWrangle 是 一 款 由 
斯 坦 福 大 学 开发 的 在 线 数据 清洗 、 数 据 重组 软件 ,主要 用 于 去 除 无 效 数据 ,将 数据 整理 成 用 
户 需 要 的 格式 等 。Google Refine 设 有 内 置 算法 ,可 以 发 现 一 些 拼写 不 一 样 但 实际 上 应 分 为 
一 组 的 文本 ; 除了 数据 管家 功能 ,Google Refine 还 提供 了 一 些 有 用 的 分 析 工 具 , 例 如 ,排序 
和 筛选 。 

2. 数据 集成 

在 大 数据 领域 中 ,数据 集成 技术 也 是 实现 大 数据 方案 的 关键 组 件 。 大 数据 集成 是 将 大 
量 不 同类 型 的 数据 原封 不 动 的 保存 在 原 地 ,而 将 处 理 过 程 适 当 的 分 配给 这 些 数据 。 这 是 一 
个 并 行 处 理 的 过 程 , 当 在 这 些 分 布 式 数据 上 执行 请 求 后 .需要 整合 并 返回 结果 。 

大 数据 集成 ,狭义 上 讲 是 指 如 何 合并 规整 数据 ; 广义 上 讲 数 据 的 存储 ,移动 .处理 等 与 
数据 管理 有 关 的 活动 都 称 为 数据 集成 。 大 数据 集成 一 般 需 要 将 处 理 过 程 分 布 到 源 数据 上 进 
行 并 行 处 理 , 并 仅 对 结果 进行 集成 。 因 为 ,如 果 预 先 对 数据 进行 合并 会 消耗 大 量 的 处 理 时 间 
和 存储 空间 。 集 成 结构 化 、 半 结构 化 和 非 结构 化 的 数据 时 需要 在 数据 之 间 建 立 共 同 的 信息 
联系 ,这 些 信息 可 以 表示 为 数据 库 中 的 主 数据 或 者 键 值 非 结 构 化 数据 中 的 元 数据 标签 或 者 
其 他 内 能 内 容 。 

目前 ,数据 集成 已 被 推 至 信息 化 战略 规划 的 首要 位 置 。 要 实现 数据 集成 的 应 用 ,不 光 要 
考虑 集成 的 数据 范围 ,还 要 从 长 远 发 展 角 度 考虑 数据 集成 的 架构 .能力 和 技术 等 方面 内 容 。 

3. 数据 变换 

数据 变换 是 将 数据 转换 成 适合 挖掘 的 形式 。 数 据 变换 是 采用 线性 或 非 线 性 的 数学 变换 
方法 将 多 维 数据 压缩 成 较 少 维 数 的 数据 ,消除 它们 在 时 间 、 空 间 、 属 性 及 精度 等 特征 表现 方 
面 的 差异 。 

4. 数据 规约 

数据 规约 是 从 数据 库 或 数据 仓库 中 选取 并 建立 使 用 者 感 兴趣 的 数据 集合 ,然后 从 数据 
集合 中 滤 掉 一 些 无 关 、 偏 差 或 重复 的 数据 。 
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2.3 大 数据 采集 及 预 处 理 的 主要 工具 


本 节 主 要 介绍 大 数据 采集 及 预 处 理 时 的 一 些 主要 工具 。 随 着 国内 大 数据 战略 越 来 越 清 
晰 ,数据 抓 取 和 信息 采集 产品 迎 来 了 巨大 的 发 展 机 遇 , 采 集 产品 数量 也 出 现 迅猛 的 增长 。 然 
而 与 产品 种 类 快速 增长 相反 的 是 ,信息 采集 技术 相对 薄弱 ,市 场 竞 争 激烈 ,质量 良 劳 不 齐 。 
在 此 ,本 节 列 出 当前 信息 采集 和 数据 抓 取 的 一 些 主 流产 品 。 





1. Flume 
Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 靠 的 ,分 布 式 的 海量 日 志 采 集 、 聚 合 和 传 
输 的 系统 。Flume 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ; 同时 ,Flume B 


供 对 数据 进行 简单 处 理 ,具有 写 到 各 种 数据 接受 方 (可 定制 ) 的 能 力 。 

Flume 提供 了 从 Console( 控 制 台 )、RPCCThriftRPC) Text( 文 件 ) .Tail(CUNIX Tail), 
Syslog(Syslog 日 志 系 统 ,支持 TCP 和 UDP2 种 模式 ),Exec( 命 令 执 行 ) 等 数据 源 上 收集 数 
据 的 能 力 。 

官网 网 址 为 http: //flume. apache. org/ ,如 图 2-2 所 示 。 


Apache Flume `w 


Welcome to Apache Flume 


Fame $on asema Yapa any” parquna? priyanppiykerpay eame maioria bnan eo oF oe dat Dee sanela eh Baiba eienen amd 
stieamun data ows 1 u robust amd fauli tulerant with pmole reliability merhans and many Laden amd revery qhechantam 1 uses a umple extenble data rodel that 
allos for oniane watyac ppiraaon 





图 2-2 Flume 官网 首页 


2. Logstash 

Logstash 是 一 个 应 用 程序 日 志 、 事 件 的 传输 处理、 管理 和 搜索 的 平台 ,可 以 用 它 来 统 
一 对 应 用 程序 日 志 进 行 收集 管理 ,提供 Web 接口 用 于 查询 和 统计 。 它 可 以 对 日 志 进 行 收 
集 、 分 析 , 并 将 其 存储 供 以 后 使 用 (如 搜索 ).Logstash 带 有 一 个 Web 界面 ,搜索 和 展示 所 有 





日 志 。 

官网 网 址 为 http://www. logstash. net/ ,如 图 2-3 所 示 。 

3. Kibana 

Kibana 是 一 个 为 Logstash 和 ElasticSearch 提供 的 日 志 分 析 的 Web 接口 ,可 使 用 它 对 

志 进 行 高 效 的 搜索 .可 视 化、 分 析 等 各 种 操作 。Kibana 也 是 一 个 开源 和 免费 的 工具 , 它 可 以 

汇总 ,分 析 和 搜索 重要 数据 日 志 并 提供 友好 的 Web 界面 .可 以 为 Logstash 和 ElasticSearch 
提供 的 日 志 分 析 的 Web 界面 。 

官网 网 址 为 http://kibana. org/ .如 图 2-4 所 示 。 
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图 2-3 Logstash 官网 首页 
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图 2-4 Kibana 官网 首页 


3. Ceilometer 

Ceilometer 主要 负责 监控 数据 的 采集 ,是 OpenStack 中 的 一 个 子 项 目 , 它 像 一 个 漏斗 一 
样 , 能 把 OpenStack 内 部 发 生 的 几乎 所 有 的 事件 都 收集 起 来 ,然后 为 计 费 和 监控 以 及 其 他 
服务 提供 数据 支撑 。 

官网 网 址 为 http: //docs. openstack. org/ ,如 图 2-5 所 示 。 


E openstak a | 


Welcome to Openstack Documentation (23 


What is Openstack? Openstack ga doud operating system that controls large pocis of compute. storage. and x` 
networking resources throughout a datacenter, al managed through a dashboard that gives administrators 
control while empowering their users to provision resources through a web Interface- 
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图 2-5 OpenStack 官网 首页 
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5. 乐 思 网 络 信息 采集 系统 

乐 思 网 络 信息 采 系 统 的 主要 目标 就 是 解决 网 络 信息 采集 和 网 络 数据 抓 取 问题 , 它 是 根 
据 用 户 自 定 义 的 任务 配置 ,批量 而 精确 地 抽取 因特网 目标 网 页 中 的 半 结 构 化 与 非 结 构 化 数 
据 , 转 化 为 结构 化 的 记录 ,保存 在 本 地 数据 库 中 ,用 于 内 部 使 用 或 外 网 发 布 ,快速 实现 外 部 信 
息 的 获取 。 

官网 网 址 为 http://www. knowlesys. cn/index. html, 如 图 2-6 所 示 。 


Mnowrasys HERE EEEN! 29 400-603-8000 
乐 思 届 情 监测 , 发 现 快 信息 全 
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图 2-6 乐 思 网 络 信息 采集 系统 官网 首页 


6. 火车 采集 器 

火车 采集 器 是 一 款 专 业 的 网 络 数据 采集 /信息 处 理 软件 ,通过 灵活 的 配置 ,可 以 很 轻松 
迅速 地 从 网 页 上 抓 取 结构 化 的 文本 ,图片 文件 等 资源 信息 ,可 编辑 筛选 处 理 后 选择 发 布 到 
网 站 后 台 , 各 类 文件 或 其 他 数据 库 系 统 中 。 火 车 采集 器 被 广泛 地 应 用 于 数据 采集 挖掘 、 垂 直 
搜索 、 信 息 汇 聚 和 门户 、 企 业 网 信息 汇聚 .商业 情报 .论坛 或 博客 迁移 .智能 信息 代理 个 人 信 
息 检 索 等 领域 ,适用 于 各 类 对 数据 有 采集 挖掘 需求 的 群体 。 

官网 网 址 为 http://www. locoy. com/ ,如 图 2-7 所 示 。 

7. 网 络 矿工 

网 络 矿 工 数据 采集 软件 是 一 款 集 互联 网 数据 采集 清洗、 存储 .发布 为 一 体 的 工具 软件 。 
它 具 有 高 效 的 采集 性 能 ,从 网 络 获取 最 小 的 数据 ,从 中 提取 需要 的 内 容 , 优 化 核心 匹配 算法 ， 
存储 最 终 的 数据 。 网 络 矿工 可 按照 用 户 数量 授权 ,不 绑 定 计算 机 ,可 随时 切换 计算 机 。 

官网 网 址 为 http://www. minerspider. com/ ,如 图 2-8 所 示 。 
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图 2-7 火车 采集 器 官网 首页 


2 f 
— S 





图 2-8 网 络 矿工 官网 首页 


以 上 各 采集 工具 均 可 进入 官方 网 站 下 载 免费 版 或 试用 版 ,或 者 根据 用 户 需 求购 买 专业 
版 ,以 及 跟 在 线 客服 人 员 提 出 采集 需求 .采用 付费 方式 由 专业 人 员 提 供 技术 支持 。 下 面 以 网 
络 矿 工 举例 ,操作 步骤 如 下 。 

(1) 进入 网 络 矿工 官方 网 站 ,下载 免 费 版 ,本 例 下载 的 是 sominer v5. 33( 通 常 免费 版 有 
试用 期 限 , 一 般 为 30 天 )。 网 络 矿 工 的 运行 需要 . Net Framework 2. 0 环境 ,建议 使 用 
Firefox 浏览 器 。 

(2) 下 载 的 压缩 文件 内 包含 多 个 可 执行 程序 ,其 中 SoukeyNetget. exe 为 网 络 矿工 采集 
软件 ,运行 此 文件 即 可 打开 网 络 矿 工 , 操 作 界 面 如 图 2-9 所 示 。 

(3) 单 击 “ 新 建 采集 任务 分 类 ?项 ,在 弹出 的 “新 建 任务 类 别 ? 对 话 框 中 输入 类 别名 称 ,并 
保存 存储 路 径 , 如 图 2-10 所 示 。 
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图 2-9 网络 矿工 采集 器 操作 界面 
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图 2-10 “新 建 任务 类 别 " 对 话 框 


(4) 在 “新 建 任务 管理 "中 , 右 击 ,选择 “新 建 采集 任务 ”命令 ,如 图 2-11 所 示 。 在 弹出 的 
“新 建 采集 任务 "对话 框 中 输入 任务 名 称 , 如 图 2-12 所 示 。 
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O 启用 务 Cookie 轮 询 ， 每 采集 一 条 数据 M 恨 据 [ookie 列 表 进行 Ceoki AIh 
Cookie: 














O 通过 插件 自动 获取 Cookie 
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图 2-11 “新 建 采集 任务 "菜单 图 2-12 “新 建 采 集 任务 "对话 框 
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(5) 在 “新 建 采集 任务 ”对 话 框 中 , 单 击 “ 增 加 采集 网 址 ”按钮 ,在 弹出 的 对 话 框 中 输入 采 
集 网 页 网 址 ,如 http://news. baidu. com/ 。 同 时 勾 选 “导航 采集 "项 ,并 单 击 "增加 ?按钮 , 增 
加 导航 规则 ,如 图 2-13 所 示 。 

[RAR l 


0 采集 网 = 
WE ts nens baida com 














口 RRT- TETTERE 下 一 页 规则 ; O BERNE res pain, BER 





























如 无 法 用 关 圾 代 苦 多 条 网 址 ， 可 手工 输入 条 个 网址 ， 每 行 一 个 " 
图 2-13 “增加 采集 网 址 ”对 话 框 
(6) 在 系统 打开 的 “导航 页 规则 配置 ”对 话 框 中 ,可 选 “ 前 后 标记 配置 "“ 可 视 化 配置 "等 
单 选项 ,如 图 2-14 所 示 。 


KARE 

导航 规则 提 到 范围 ONS, NESATUR) : 
BEF: tF: [ 
ASRASA NEAS 

导航 规则 [ 
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选择 不 允许 包含 的 字符 : 
w> 口 空 洛 口上 口 ” 口 ” 口 自 定义 字符 






































SPAI 
不 能 包含 字 符 串 : 








必须 包含 字 符 昌 : 
































图 2-14 “导航 页 规则 配置 "对 话 框 
(7) 若 在 图 2-14 中 选中 “可 视 化 配置 " 单 选项 , 则 会 显示 出 “导航 页 规则 配置 "对 话 框 中 
的 “可 视 化 配置 导航 规则 ”工作 页 面 ,如 图 2-15 所 示 。 
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图 2-15 可 视 化 配置 


导航 通常 通过 一 个 地 址 导航 多 个 地 址 ,而 XPath 获取 的 是 一 个 信息 ,所 以 可 以 通过 
XPath 插入 参数 到 XPath 列表 ,进行 多 个 地 址 的 采集 。 单 击 * 可 视 化 提取 ”按钮 , 则 会 弹出 
“可 视 化 采集 器 配置 ”页面 ,然后 单 击 工 具 栏 “开始 捕获 ”命令 ,鼠标 在 页 面 滑动 时 ,会 出 现 一 


个 蓝 色 的 边框 ,用 蓝 色 的 边框 选中 第 一 条 新 闻 , 单 击 , 然 后 再 选中 最 后 一 条 新 闻 , 单 击 , 系 统 
会 自动 捕获 导航 规则 ,如 图 2-16 所 示 。 














了 | 
SA 网 页 贴吧 j 
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Bai 候 新闻 


@ sex 新 司 标量 











图 2-16 


可 视 化 采集 配置 器 
单 击 工具 栏 的 "确定 退出 ?命令 后 ,完成 配置 。 选 中 刚才 配置 的 网 址 , 单 击 “测试 网 址 解 
析 ” 按 钮 ,可 以 看 到 系统 已 经 将 需要 采集 的 新 闻 地 址 解析 出 来 ,表示 配置 成 功 。 

(8) 配置 采集 数据 的 规则 。 因 为 要 采集 新 闻 的 正文 ,标题 ,发 布 时 间 , 可 以 用 3 种 方式 


来 完成 : 智能 采集 、 可 视 化 采集 和 规则 配置 。 以 智能 采集 为 例 , 回 到 “新 建 采 集 任务 ”对话 框 
中 , 单 击 “ 采 集 数据 ”按钮 ,然后 再 单 击 “ 配 置 助手 ”按钮 ,如 图 2-17 所 示 。 
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为 提高 网 络 矿 工 末 集 性 能 ， 系 统 要 求 采 集 规 则 必须 按 色 网 页 顺序 进行 配置 。 ese 
FERRE 所 属 页 面 REE 规则 类 别 Path.. 








a 结束 位 轩 
图 2-17 “采集 数据 "工作 页 面 
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系统 弹出 的 “采集 规则 自动 化 配置 ”对话 框 ,在 地 址 栏 中 输入 采集 地 址 ,同时 单 击 “生成 
文章 采集 规则 ”按钮 ,可 以 看 到 系统 已 经 将 文章 的 智能 规则 输入 到 系统 中 , 单 击 “ 测 试 ”按钮 ， 
可 以 检查 采集 结果 是 否 正 确 , 如 图 2-18 所 示 。 单 击 工具 栏 中 的 "确定 退出 命令 ,完成 配置 
F 
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图 2-18 采集 规则 自动 化 配置 


(9) 单 击 * 应 用 "按钮 ,保存 ,保存 测试 采集 规则 。 在 返回 的 “新 建 采集 任务 "对 话 框 中 ， 
单 击 “ 采 集 任务 测试 ”按钮 ,在 弹出 的 操作 页 面 中 单 击 “ 启 动 测试 "按钮 ,如 图 2-19 所 示 
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图 2-19 采集 任务 测试 
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(10) 任务 设置 完成 后 ,返回 最 初 的 操作 界面 ,如 图 2-20 所 示 。 选 中 任务 , 右 击 “启动 任 
务 " 命 令 , 可 看 到 下 面 屏 幕 滚动 ,停止 后 则 采集 任务 完成 。 
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图 2-20 启动 采集 任务 
AD 采集 任务 完成 后 ,任务 将 以 . smt 文件 形式 保存 在 安装 路 径 的 tasks XER. Ai 


击 采 集 任务 的 名 称 ,在 弹出 的 快捷 菜单 内 选择 数据 导出 的 格式 ,包括 文本 、Excel 和 Word 
等 ,如 图 2-21 所 示 。 如 选择 “导出 了 xcel”, 导 出 结果 如 图 2-22 所 示 。 











[2016/5/17 14:55:08 REAM: http: I baidu. 
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|2016/5/17 14:55:09 REEM: http-//news. baidu. 
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[2016/5/17 14:55:11 数据 保存 成 功 ! 








图 2-21 数据 导出 格式 选择 
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图 2-22 导出 Excel 结果 


以 上 完成 了 一 个 简单 的 采集 任务 。 以 后 可 在 “已 经 完成 的 任务 "栏目 中 查看 已 经 下 载 的 
数据 ,选中 任务 , 右 击 后 也 可 以 查看 \ 编 辑 和 发 布 数据 等 。 


本 章 小 结 


本 章 主要 介绍 了 大 数据 的 采集 、 大 数据 采集 的 数据 来 源 、 大 数据 采集 的 技术 方法 和 大 数 
据 的 预 处 理 ,以 及 大 数据 采集 与 预 处 理 的 一 些 工具 和 简单 的 采集 任务 执行 范例 。 大 数据 采 
集 后 为 了 减少 及 避免 后 续 的 数据 分 析 和 数据 挖掘 中 会 出 现 的 问题 ,有 必要 对 数据 进行 预 处 
理 。 数 据 的 预 处 理 主要 是 完成 对 于 已 经 采集 到 的 数据 进行 适当 的 处 理 、 清 洗 、 去 噪 及 进一步 
的 集成 存储 。 


习题 2 


一 、 填空 题 
. 大 数据 的 数据 采集 是 在 确定 用 户 目标 的 基础 上 ,针对 该 范围 内 所 有 结构 化 、 
和 非 结构 化 的 数据 的 采集 。 
2. 按照 数据 来 源 划 分 ,大 数据 的 三 大 主要 来 源 为 商业 数据 、 与 物 联 网 数据 。 
3. 是 指 网 络 空间 交互 过 程 中 产生 的 大 量 数据 ,包括 通信 记录 及 QQ、 微 信 、 微 
博 等 社交 媒体 产生 的 数据 。 
4. 互联 网 数据 具有 大 量化 、 多 样 化 、 FR 
5. 大 数据 技术 在 数据 采集 方面 采用 的 方法 分 为 系统 日 志 采 集 方法 、 和 其 他 数 


据 采集 方法 。 
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6. 是 指 在 计算 机 互联 网 的 基础 上 ,利用 射频 识别 ,传感器 、 红 外 感应 器 、 无 线 
数据 通信 等 技术 ,构造 一 个 覆盖 世界 上 万 事 万 物 的 “The Internet of Things”, 也 就 是 “实现 
物 物 相连 的 互联 网 络 ”。 

7. 网 络 数据 采集 是 指 通过 网 络 疏 虫 或 等 方式 从 网 站 上 获取 互联 网 中 相关 网 
页 内 容 的 过 程 , 并 从 中 抽取 出 用 户 所 需要 的 属性 内 容 。 

8. 网 络 疏 虫 是 一 种 按照 一 定 的 规则 ,自动 地 抓 取 的 程序 或 者 脚本 。 

9. 大 数据 预 处 理 的 方法 主要 包括 数据 清洗 、 ,数据 变换 和 数据 规约 。 

10. 是 在 汇聚 多 个 维度 、 多 个 来 源 、 多 种 结构 的 数据 之 后 ,对 数据 进行 抽取 、 转 
换 和 集成 加 载 。 

二 、 简 答题 

1. 简 述 什么 是 大 数据 的 数据 采集 。 

2. 请 简要 对 大 数据 的 数据 采集 与 传统 的 数据 采集 进行 对 比 。 

3. 简 述 数据 采集 的 数据 来 源 。 

4. 简 述 数据 采集 的 技术 方法 。 

5. 简 述 大 数据 预 处 理 的 方法 。 
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内 容 与 要 求 

本 章 主要 介绍 大 数据 分 析 的 基本 方法 和 流程 ,大 数据 分 析 的 主要 技术 及 分 析 系 统 ， 
以 及 实际 应 用 情况 ,使 读者 对 大 数据 分 析 有 概括 性 的 了 解 和 掌握 。 

“大 数据 分 析 简 介 ” 一 节 要 求 理解 大 数据 分 析 ; 掌握 大 数据 分 析 的 基本 方法 及 
流程 。 

“大 数据 分 析 的 主要 技术 ”一 节 要 求 熟悉 主要 的 大 数据 分 析 技 术 , 并 对 它们 的 作用 
有 所 了 解 。 

“大 数据 分 析 处 理 系统 "一 节 要 求 掌握 4 种 类 型 大 数据 的 特点 ,了 解 典 型 分 析 处 理 
系统 。 

“大 数据 分 析 的 应 用 "一 节 要 求 对 网 络 与 医学 大 数据 的 分 析 有 所 了 解 。 


本 章 重点 是 大 数据 分 析 的 方法 、 流 程 . 主 要 技术 和 典型 分 析 系 统 , 难 点 是 理解 大 数 


大 数据 分 析 就 是 研究 包含 各 种 数据 类 型 的 大 型 数据 集 的 过 程 。 大 数据 技术 可 以 发 现 隐 
藏 的 数据 模式 .未 知 数据 的 相关 性 、 市 场 趋势 .客户 喜好 和 其 他 有 用 的 商业 信息 ,其 分 析 结果 
可 以 带 来 更 有 效 的 市 场 营 销 、 新 的 收入 机 会 、 更 好 的 客户 服务 、 提 高 运营 效率 、 获 得 竞争 优势 
和 其 他 商业 利益 。 
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3.1 大 数据 分 析 简 介 


在 方兴未艾 的 大 数据 时 代 , 人 们 要 掌握 大 数据 分 析 的 基本 方法 和 分 析 流 程 , 从 而 探索 出 
大 数据 中 蕴含 的 规律 与 关系 ,解决 实际 业务 问题 。 


3.1.1 大 数据 分 析 


大 数据 分 析 是 指 对 规模 巨大 的 数据 进行 分 析 。 通 过 多 个 学 科技 术 的 融合 ,实现 数据 的 
采集 .管理 和 分 析 , 从 而 发 现 新 的 知识 和 规律 。 大 数据 时 代 的 数据 分 析 首 先 要 解决 的 是 海 
量 、 结 构 多 变 ,动态 实时 的 数据 存储 与 计算 问题 ,这 些 问 题 在 大 数据 解决 方案 中 至 关 重 要 , 决 
定 大 数据 分 析 的 最 终结 果 。 

通过 美国 福特 公司 利用 大 数据 分 析 促 进 汽车 销售 的 案例 ,可 以 初步 认识 大 数据 分 析 。 
分 析 过 程 如 图 3-1 所 示 。 


提出 数据 数据 可 视 效果 
问题 采集 分 析 化 评估 


图 3-1 福特 促进 汽车 销售 的 大 数据 分 析 流 程 





1. 提出 问题 

用 大 数据 分 析 技 术 来 提升 汽车 销售 业绩 。 一 般 汽车 销售 商 的 普通 做 法 是 投放 广告 , 动 
辆 就 是 几 百 万 ,而 且 很 难 分 清 广 告 促销 的 作用 到 底 有 多 大 。 大 数据 技术 不 一 样 , 它 可 以 通过 
对 某 个 地 区 可 能 会 影响 购买 汽车 意愿 的 源 数据 进行 收集 和 分 析 , 从 而 获得 促进 销售 的 解决 
方案 。 

2. 大 数据 采集 

分 析 团 队 搜索 采集 数据 ,如 这 个 地 区 的 房屋 市 场 、 新 建 住宅 .库存 和 销售 数据 .就 业 率 
等 ; 还 可 利用 与 汽车 相关 的 网 站 上 的 数据 ,如 客户 搜索 了 哪些 汽车 、 哪 一 种 款式 、 汽 车 的 价 
格 \ 车 型 配置 .汽车 功能 ,汽车 颜色 等 ; 再 有 获取 第 三 方 合同 网 站 、 区 域 经 济 数 据 等 。 

3. 大 数据 分 析 

对 采集 的 数据 进行 分 析 挖 掘 ,为 销售 提供 精准 可 靠 的 分 析 结 果 , 即 提供 多 种 可 能 的 促销 
分 析 方 案 。 

4. 大 数据 可 视 化 

根据 数据 分 析 结 果实 施 有 针对 性 的 促销 计划 ,如 在 需求 量 旺盛 的 地 方 有 专门 的 促销 计 
划 , 哪 个 地 区 的 消费 者 对 某 款 汽车 感 兴趣 ,相应 广告 就 送 到 其 电子 邮箱 和 地 区 的 报纸 上 , 非 
常 精准 ,只 需要 较 少 费用 。 

5. 效果 评估 

跟 传统 的 广告 促销 相 比 ,通过 大 数据 的 创新 营销 ,福特 公司 花 了 很 少 的 钱 ,做 了 大 数据 
分 析 产 品 ,也 可 叫 大 数据 促销 模型 .大 幅度 地 提高 了 汽车 的 销售 业绩 。 
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3.1.2 大 数据 分 析 的 基本 方法 


大 数据 分 析 可 以 分 为 以 下 5 种 基本 方法 。 

1. 预测 性 分 析 

大 数据 分 析 最 普遍 的 应 用 就 是 预测 性 分 析 , 从 大 数据 中 挖掘 出 有 价值 的 知识 和 规则 , 通 
过 科学 建 模 的 手段 呈现 出 结果 ,然后 可 以 将 新 的 数据 带 入 模型 ,从 而 预测 未 来 的 情况 。 

例如 , 麻 省 理工 学 院 的 研究 者 创建 了 一 个 计算 机 预测 模型 来 分 析 心 脏 病 患 者 丢弃 的 心 
电 图 数据 。 他 们 利用 数据 挖掘 和 机 器 学 习 在 海量 的 数据 中 筛选 ,发 现 心电图 中 出 现 三 类 蜡 
常 者 一 年 内 死 于 第 二 次 心脏 病 发 作 的 机 率 比 未 出 现 者 高 1 一 2 倍 。 这 种 新 方法 能 够 预测 出 
更 多 的 无 法 通过 现 有 的 风险 筛 查 被 探查 出 的 高 危 病 人 ,如 图 3-2 所 示 。 

2. 可 视 化 分 析 

不 管 是 对 数据 分 析 专 家 还 是 普通 用 户 ,他们 二 者 对 于 大 数据 分 析 最 基本 的 要 求 就 是 可 
视 化 分 析 , 因 为 可 视 化 分 析 能 够 直观 地 呈现 大 数据 特点 ,同时 能 够 非常 容易 地 被 地 用 户 所 接 
受 。 可 视 化 可 以 直观 地 展示 数据 ,让 数据 自己 说 话 ,让 观众 听 到 结果 ,数据 可 视 化 是 数据 分 
析 工 具 最 基本 的 要 求 。 如 图 3-3 所 示 是 报纸 发 行 量 的 可 视 化 分 析 。 图 3-4 所 示 是 超市 开业 
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图 3-2 心电图 大 数据 分 析 图 3-3 北京 日 报 发 行 量 数据 分 析 


3. 大 数据 挖掘 算法 

可 视 化 分 析 结 果 是 给 用 户 看 的 ,而 数据 挖掘 算法 是 给 计算 机 看 的 ,通过 让 机 器 学 习 算 
法 , 按 人 的 指令 工作 ,从 而 呈现 给 用 户 隐藏 在 数据 之 中 的 有 价值 的 结果 。 大 数据 分 析 的 理论 
核心 就 是 数据 挖掘 算法 ,算法 不 仅 要 考虑 数据 的 量 ,也 要 考虑 处 理 的 速度 ,目前 在 许多 领域 
的 研究 都 是 在 分 布 式 计算 框架 上 对 现 有 的 数据 挖掘 理论 加 以 改进 ,进行 并 行 化 、 分 布 式 
处 理 。 

常用 的 数据 挖掘 方 法 有 分 类 、 预 测 、 关 联 规则 、 聚 类 、 决 策 树 、 描 述 和 可 视 化 、 复 杂 数 据 类 
型 挖掘 (Text、Web、 图 形 图 像 、 视 频 、 音 频 ) 等 .有 很 多 学 者 对 大 数据 挖 气 算 法 进行 了 研究 和 
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文献 发 表 。 例 如 ,有 文献 提出 了 对 适合 慢性 病 分 类 的 C4. 5 决策 树 算法 进行 改进 ,对 基于 
MapReduce 编程 框架 进行 算法 的 并 行 化 改造 ; 有 文献 提出 对 数据 挖掘 技术 中 的 关联 规则 算 
法 进行 研究 ,并 通过 引入 了 兴趣 度 对 经 典 Apriori 算法 进行 改进 ,提出 了 一 种 基于 
MapReduce 的 改进 的 Apriori 医疗 数据 挖掘 算法 。 

4. 语义 引擎 

数据 的 含义 就 是 语义 。 语 义 技术 是 从 词语 所 表达 的 语义 层次 上 来 认识 和 处 理 用 户 的 检 

语义 引擎 通过 对 网 络 中 的 资源 对 象 进行 语义 上 的 标注 以 及 对 用 户 的 查询 表达 进行 语义 
处 理 , 使 得 自然 语言 具备 语义 上 的 逻辑 关系 ,能 够 在 网 络 环境 下 进行 广泛 有 效 的 语义 推理 ， 
从 而 更 加 准确 全面 地 实现 用 户 的 检索 。 大 数据 分 析 广泛 应 用 于 网 络 数据 挖掘 ,可 从 用 户 的 
搜索 关键 词 来 分 析 和 判断 用 户 的 需求 ,从 而 实现 更 好 的 用 户 体验 。 

例如 ,一 个 语义 搜索 引擎 试图 通过 上 下 文 来 解读 搜索 结果 , 它 可 以 自动 识别 文本 的 概念 
结构 。 如 有 人 搜索 “选举 ”, 语 义 搜索 引擎 可 能 会 获取 包含 “投票 "“ 竞 选 " 和 “选票 "的 文本 信 
息 , 但 是 "选举 "这 个 词 可 能 根本 没有 出 现在 这 些 信 息 来 源 中 ,也 就 是 说 语义 搜索 可 以 对 关键 
词 的 相关 词 和 类 似 词 进行 解读 ,从 而 扩大 搜索 信息 的 准确 性 和 相关 性 。 

5. 数据 质量 和 数据 管理 

数据 质量 和 数据 管理 是 指 为 了 满足 信息 利用 的 需要 ,而 对 信息 系统 的 各 个 信息 采集 点 
进行 规范 ,包括 建立 模式 化 的 操作 规程 .原始 信息 的 校 验 、 错 误 信息 的 反馈 .矫正 等 一 系列 的 
过 程 。 大 数据 分 析 离 不 开 数 据 质量 和 数据 管理 ,高 质量 的 数据 和 有 效 的 数据 管理 ,无 论 是 在 
学 术 研 究 还 是 在 商业 应 用 领域 ,都 能 够 保证 分 析 结果 的 真实 和 有 价值 。 


3.1.3 大 数据 处 理 流程 


整个 处 理 流 程 可 以 分 解 为 定义 问题 .数据 理解 .数据 采集 ,数据 预 处 理 ` 数 据 分 析 、 分 析 
结果 解析 等 ,具体 如 图 3-5 所 示 。 
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图 3-5 大 数据 分 析 处 理 流 程 图 


1. 提出 问题 


大 数据 分 析 就 是 解决 具体 业务 问题 的 处 理 过 程 ,这 需要 在 具体 业务 中 提炼 出 准确 的 实 
现 目标 ,也 就 是 首先 要 制定 具体 需要 解决 的 问题 ,如 图 3-6 所 示 。 


我 们 要 什么 样 的 数据 分 析 结果 ? 业务 调研 
1 


问题 定位 
il 
制定 目标 



























可 解释 、 有 实际 业务 涵义 、 可 使 用 的 分 析 结果 ! 


图 3-6 提出 问题 的 过 程 


2. 大 数据 理解 

大 数据 分 析 是 为 了 解决 业务 问题 ,理解 问题 要 基于 业务 知识 ,数据 理解 就 是 利用 业务 知 
识 来 认识 数据 。 如 大 数据 分 析 " 饮 食 与 疾病 的 关系 "“ 糖 尿 病 与 高 血压 的 发 病 关 系 ”, 这 些 分 
析 都 需要 对 相关 医学 知识 有 足够 的 了 解 才能 理解 数据 并 进行 分 析 。 只 有 对 业务 知识 有 深入 
的 理解 ,才能 在 大 数据 中 找 准 分 析 指 标 和 进一步 衍生 出 来 的 指标 ,从 而 抓 住 问题 的 本 质 , 控 
掘 出 有 价值 的 结果 ,如 图 3-7 所 示 。 





理解 数据 特征 及 分 布 上 -| 控制 数据 质量 — 指标 选择 = 衍生 指标 | 





图 3-7 理解 数据 的 过 程 


3. 大 数据 的 采集 

传统 的 数据 采集 来 源 单一 : 且 存储 、 管 理 和 分 析 数 据 量 也 相对 较 小 ,大 多 采用 关系 型 数 
据 库 和 并 行 数据 仓库 即 可 处 理 。 大 数据 的 采集 可 以 通过 系统 日 志 采 集 方法 .对 非 结 构 化 数 
据 采 集 方法 .企业 特定 系统 接口 等 相关 方式 采集 ,如 用 户 利用 多 个 数据 库 来 接收 来 自 客户 端 
(Web、App 或 者 传感器 等 ) 的 数据 。 
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4. 大 数据 的 预 处 理 

如 果 要 对 海量 数据 进行 有 效 的 分 析 , 应 该 将 数据 导入 到 一 个 集中 的 大 型 分 布 式 数据 库 
或 者 分 布 式 存 储 集群 ,并 且 可 以 在 导入 基础 上 做 一 些 简单 的 清洗 和 预 处 理工 作 。 也 有 一 些 
用 户 会 在 导入 时 对 数据 进行 流 式 计算 ,来 满足 部 分 业务 的 实时 计算 需求 。 导 入 与 预 处 理 过 
程 的 特点 和 挑战 主要 是 导入 的 数据 量 大 ,每 秒 钟 的 导入 量 经 常会 达到 百 兆 ,甚至 千 兆 级 别 。 

5. 大 数据 分 析 

大 数据 分 析 包 括 对 结构 化 、 半 结构 化 及 非 结构 化 数据 的 分 析 , 主 要 利用 分 布 式 数据 库 ， 
或 者 分 布 式 计算 集群 来 对 海量 数据 进行 分 析 , 如 分 类 汇总 ,基于 各 种 算法 的 高 级 别 计算 等 ， 
涉及 的 数据 量 和 计算 量 都 很 大 。 

6. 大 数据 分 析 结 果 的 解析 

对 用 户 来 讲 , 最 关心 的 是 数据 分 析 结 果 与 解析 ,对 结果 的 理解 可 以 通过 合适 的 展示 方 
式 , 如 可 视 化 和 人 机 交互 等 技术 来 实现 。 


3.2 大 数据 分 析 的 主要 技术 


大 数据 分 析 的 主要 技术 有 深度 学 习 、 知 识 计算 及 可 视 化 等 ,深度 学 习 和 知识 计算 是 大 数 
据 分 析 的 基础 ,而 可 视 化 在 数据 分 析 和 结果 呈现 的 过 程 中 均 起 作用 (关于 可 视 化 的 具体 处 理 
方法 见 第 4 章 )。 

3.2.1 深度 学 习 

L 深度 学 习 的 概念 

深度 学 习 是 一 种 能 够 模拟 出 人 脑 的 神经 结构 的 机 器 学 习 方式 ,从 而 能 够 让 计算 机 具有 
人 一 样 的 智慧 。 其 利用 层次 化 的 架构 学 习 出 对 象 在 不 同 层次 上 的 表达 ,这 种 层次 化 的 表达 
可 以 帮助 解决 更 加 复杂 抽象 的 问题 。 在 层次 化 中 ,高 层 的 概念 通常 是 通过 低层 的 概念 来 定 
义 的 ,深度 学 习 可 以 对 人 类 难以 理解 的 底层 数据 特征 进行 层 层 抽象 ,从 而 提高 数据 学 习 的 精 
度 。 让 计算 机 模仿 人 脑 的 机 制 来 分 析 数 据 , 建 立 类 似 人 脑 的 神经 网 络 进行 机 器 学 习 , 从 而 实 
现 对 数据 有 效 的 表达 ,解释 和 学 习 , 这 种 技术 在 将 来 无 疑 是 前 景 无 限 的 。 

2. 深度 学 习 的 应 用 

近 几 年 ,深度 学 习 在 语音 、 图 像 以 及 自然 语言 理解 等 应 用 
领域 取得 一 系列 重大 进展 。 在 自然 语言 处 理 等 领域 主要 应 用 
于 机 器 翻译 以 及 语义 挖掘 等 方面 ,国外 的 IBM Google 等 公 
司 都 快速 地 进行 了 语音 识别 的 研究 ; 国内 的 阿里 巴巴 .科大 
讯 飞 百度 ,中科院 自动 化 所 等 公司 或 研究 单位 ,也 在 进行 深 
度 学 习 在 语音 识别 上 的 研究 。 

深度 学 习 在 图 像 领域 也 取得 了 一 系列 进展 。 如 微软 推出 
的 网 站 how-old, 用 户 可 以 上 传 自己 的 照片 “ 估 龄 "。 系 统 根据 
照片 会 对 瞳孔 、 眼 角 、 鼻 子 等 27 个 “面部 地 标点 ”展开 分 析 , 判 
图 3-8 人 脸 识 别 判断 年 龄 。 断 照 片上 人 物 的 年 龄 :如 图 3-8 所 示 。 
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举例 : 德国 用 深度 学 习 算 法 让 人 工 智 能 系统 学 习 绘 画 。 

















2015 年 德国 一 个 综合 
等 世界 著名 画家 的 画 风 绘 制 








经 科学 研究 所 用 深度 学 习 算法 让 人 工 智 能 系统 学 习 栖 高 、 莫 奈 
新 的 "人工 智 能 世界 名 画 ”。 他 们 在 视觉 感知 的 关键 领域 ,如 物 


体 和 人 脸 识别 等 方面 有 了 新 的 解决 方法 ,这 就 是 深层 神经 网 络 。 基 于 深层 神经 网 络 的 人 工 
智能 系统 提供 了 绘画 模仿 ,提供 了 神经 创造 艺术 形象 的 算法 ,用 以 理解 和 模拟 人 类 去 创建 和 
感知 艺术 形象 。 该 算法 是 卷 积 神经 网 络 算法 ,模拟 人 类 大 脑 处 理 视觉 时 的 工作 状态 ,在 目标 
识别 方面 较 其 他 可 用 算法 甚至 人 类 专家 更 好 。 


图 3-9 是 德国 一 个 小 镇 


的 原始 照片 ,图 3-10、 图 3-11 和 图 3-12 的 左下 角 显 示 的 是 名 画 


原作 , 右 侧 是 人 工 智能 学 习 后 变形 的 图 3-9 图 片 效果 。 





图 3-9 德国 小 镇 一 览 图 3-10 ” 特 纳 弥 诺 陶 洛斯 的 沉船 风格 的 小 镇 





图 3-11 焚 高 的 星夜 风格 的 小 镇 图 3-12 爱德华 。 蒙 克 的 呐喊 风格 的 小 镇 


以 上 这 些 图 像 结合 了 一 些 著名 的 艺术 绘画 风格 ,这 些 图 像 被 创建 时 ,首先 学 习 艺术 品 的 








内 容 表 示 和 风格 表示 ,然后 


应 用 在 给 定 的 图 3-9 中 ,并 进行 重新 排列 组 合 进 行 相似 性 视觉 对 








比 绘画 ,形成 人 工 智 能 版 的 世界 名 画 。 
32.2 知识 计算 


1. 知识 计算 的 概念 
知识 计算 是 从 大 数据 中 





Ph 首 先 获 得 有 价值 的 知识 ,并 对 其 进行 进一步 深入 的 计算 和 分 析 


37 

















大 数据 技术 与 应 
o — — —— 


的 过 程 。 也 就 是 要 对 数据 进行 高 端的 分 析 , 需 要 从 大 数据 中 先 抽取 出 有 价值 的 知识 ,并 把 它 
构建 成 可 支持 查询 ,分析 与 计算 的 知识 库 。 知 识 计算 是 目前 国内 外 工业 界 开发 和 学 术 界 研 
究 的 一 个 热点 。 知 识 计 算 的 基础 是 构建 知识 库 ,知识 库 中 的 知识 是 显 式 的 知识 。 通 过 利用 显 
式 的 知识 ,人 们 可 以 进一步 计算 出 隐 式 知识 。 知 识 计算 包括 属性 计算 、 关 系 计算 、 实 例 计算 等 。 

2. 知识 计算 的 应 用 

目前 ,世界 各 个 组 织 建立 的 知识 库 多 达 50 余 种 ,相关 的 应 用 系统 更 是 达到 了 上 百 种 。 
如 维基 百科 等 在 线 百科 知识 构建 的 知识 库 DBpedia、YAG、Omega、WikiTaxonomy; Google 
创建 了 至 今世 界 最 大 的 知识 库 , 名 为 Knowledge Vault, 它 通过 算法 自动 搜集 网 上 信息 , 通 
过 机 器 学 习 把 数据 变 成 可 用 知识 ,目前 ,Knowledge Vault 已 经 收集 了 16 亿 件 事件 。 知 识 
库 除了 改善 人 机 交互 之 外 ,也 会 推动 现实 增强 技术 的 发 展 ,Knowledge Vault 可 以 驱动 一 个 
现实 增强 系统 ,让 人 们 从 头 戴 显示 屏 上 了 解 现实 世界 中 的 地 标 、 建 筑 、 商 业 网 点 等 信息 。 

知识 图 谱 泛 指 各 种 大 型 知识 库 , 是 把 所 有 不 同 种 类 的 信息 连接 在 一 起 而 得 到 的 一 个 关 
系 网 络 。 这 个 概念 最 早 由 Google 提出 ,提供 了 从 “关系 ”的 角度 去 分 析 问 题 的 能 力 , 知 识 图 
谱 就 是 机 器 大 脑 中 的 知识 库 。 

在 国内 ,中 文 知 识 图 谱 的 构建 与 知识 计算 也 有 大 量 的 研究 和 开发 应 用 ,图 3-13 是 心房 
显 动 知识 图 谱 , 图 3-14 是 心肌 炎 知 识 图 谱 。 具 有 代表 性 的 有 中 国 科 学 院 计算 技 术 研究 所 的 
OpenKN .中 国 科 学 院 数 学 研究 院 提出 的 知 件 (Knowware)、 上 海 交 通 大 学 最 早 构建 的 中 文 
知识 图 谱 平台 zhishi. me ,百度 推出 了 中 文 知 识 图谱 搜 索 .搜狗 推出 的 知 立 方 平台 、 复 旦 大 学 
GDM 实验 室 推 出 的 中 文 知识 图 谱 展 示 平 台 等 .这 些 知识 库 必 将 使 知识 计算 发 挥 更 大 的 作用 。 


知识 图 谱 














l. J“ b w “ S> AE] 
器 质 从 














图 3-13 ”心房 颤动 知识 图 谱 
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知识 图 谱 














图 3-14 心肌 炎 知 识 图 谱 


3.3 大 数据 分 析 处 理 系 统 简介 


针对 不 同业 务 需求 的 大 数据 ,应 采用 不 同 的 分 析 处 理 系 统 。 国 内 外 的 互联 网 企业 都 在 
基于 开源 性 面向 典型 应 用 的 专用 化 系统 进行 开发 。 


3.3.1 批量 数据 及 处 理 系 统 


1. 批量 数据 

批量 数据 通常 是 数据 体 量 巨大 ,如 数据 从 TB 级 别 跃升 到 PB 级 别 , 且 是 以 静态 的 形式 
存储 ,这 种 批量 数据 往往 是 从 应 用 中 沉淀 下 来 的 数据 ,如 医院 长 期 存储 的 电子 病历 等 。 对 这 
样 数据 的 分 析 通 常 使 用 合理 的 算法 ,才能 进行 数据 计算 和 价值 发 现 。 大 数据 的 批量 处 理 系 
统 适 用 于 先 存储 后 计算 ,实时 性 要 求 不 高 ,但 数据 的 准确 性 和 全 面 性 要 求 较 高 的 场景 。 

2. 批量 数据 分 析 处 理 系 统 

Hadoop 是 典型 的 大 数据 批量 处 理 架构 .由 HDFS( Hadoop Distributed File System, 
Hadoop 分 布 式 文件 系统 ) 负 责 静态 数据 的 存储 ,并 通过 MapReduce 将 计算 逻辑 ,机 器 学 习 
和 数据 挖掘 算法 实现 。 关 于 Hadoop 与 MapReduce 的 具体 处 理 流程 和 方法 见 本 书 第 5 和 
7 章 。 
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3.3.2 流 式 数 据 及 处 理 系统 


1. 流 式 数据 

流 式 数据 是 一 个 无 穷 的 数据 序列 ,序列 中 的 每 一 个 元 素来 源 不 同 , 格 式 复杂 ,序列 往往 
包含 时 序 特性 。 在 大 数据 背景 下 , 流 式 数据 处 理 常见 于 服务 器 日 志 的 实时 采集 ,将 PB 级 数 
据 的 处 理 时 间 缩 短 到 秒 级 。 数 据 流 中 的 数据 格式 可 以 是 结构 化 的 、 半 结构 化 的 其 至 是 非 结 
构 化 的 ,数据 流 中 往往 含有 错误 元 素 ,垃圾 信息 等 ,因此 流 式 数 据 的 处 理 系统 要 有 很 好 的 容 
错 性 及 不 同 结构 的 数据 分 析 能 力 , 还 要 完成 数据 的 动态 清洗 、 格 式 处 理 等 。 

2. 流 式 数据 分 析 处 理 系 统 

流 式 数据 处 理 有 Twitter 的 Storm, Facebook 的 Scribe, Linkedin 的 Samza 等 。 其 中 
Storm 是 一 套 分 布 式 、 可 靠 、 可 容错 的 用 于 处 理 流 式 数据 的 系统 ,其 流 式 处 理 作业 被 分 发 至 
不 同类 型 的 组 件 ,每 个 组 件 负 责 一 项 简单 的 ,特定 的 处 理 任 务 。 

Storm 系统 有 其 独特 的 特性 。 

(1) 简单 的 编程 : 类 似 于 MapReduce 的 操作 ,降低 了 并 行 批 处 理 与 实时 处 理 的 复杂 性 。 

(2) 容错 性 : 如 果 出 现 异常 ,Storm 将 以 一 致 的 状态 重新 启动 处 理 以 恢复 正确 状态 。 

(3) 水 平 扩展 : 其 流 式 计算 过 程 是 在 多 个 线程 和 服务 器 之 间 并 行进 行 的 。 

(4) 快速 可 靠 的 消息 处 理 : Storm 利用 ZeroMQ 作为 消息 队列 , 极 大 地 提高 了 消息 传递 
的 速度 ,任务 失败 时 , 它 会 负责 从 消息 源 重 试 消息 。 


3.3.3 交互 式 数据 及 处 理 系 统 


1. 交互 式 数据 

交互 式 数据 是 操作 人 员 与 计算 机 以 人 机 对 话 的 方式 产生 的 数据 ,操作 人 员 提 出 请 求 , 数 
据 以 对 话 的 方式 输入 ,计算 机 系统 便 提供 相应 的 数据 或 提示 信息 ,引导 操作 人 员 逐 步 地 完成 
所 需 的 操作 ,直至 获得 最 后 处 理 结 果 。 交 互 式 数 据 处 理 灵活 、 直 观 、 使 于 控制 ,采用 这 种 方 
式 , 存 储 在 系统 中 的 数据 文件 能 够 被 及 时 地 处 理 修改 ,同时 处 理 结果 可 以 立刻 被 使 用 。 

2. 交互 式 数据 分 析 处 理 系统 

交互 式 数据 处 理 系统 有 Berkeley 的 Spark 和 Google 的 Dremel 等 。Spark 是 一 个 基于 
内 存 计算 的 可 扩展 的 开源 集群 计算 系统 。 关 于 Spark 的 详细 介绍 见 本 书 第 9 章 。 


3.3.4 图 数据 及 处 理 系统 


1. 图 数据 

图 数据 是 通过 图 形 表 达 出 来 的 信息 含义 。 图 自身 的 结构 特点 可 以 很 好 地 表示 事物 之 间 
的 关系 。 图 数据 中 主要 包括 图 中 的 节点 以 及 连接 节点 的 边 。 在 图 中 ,顶点 和 边 实例 化 构成 
各 种 类 型 的 图 ,如 标签 图 .属性 图 .特征 图 以 及 语义 图 等 ,如 图 3-15、 图 3-16、 图 3-17 和 
图 3-18 所 示 。 
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图 3-15 价格 标签 图 图 3-16 ”服装 颜色 属性 图 





图 3-17 自然 特征 图 图 3-18 人 脑 语义 地 图 


2. 图 数据 分 析 处 理 系统 

图 数据 处 理 有 一 些 典型 的 系统 ,如 Google 的 Pregel 系统 .Neo4j 系统 和 微软 的 Trinity 
系统 。Trinity 是 Microsoft 推出 的 一 款 建 立 在 分 布 式 云 存储 上 的 计算 平台 ,可 以 提供 高 度 并 
行 查询 处 理 .事务 记录 一致 性 控制 等 功能 。Trinity 主要 使 用 内 存 存 储 , 磁 盘 仅 作为 备份 存储 。 

Trinity 有 以 下 特点 。 

(1) 数据 模型 是 超 图 : 超 图 中 ,一 条 边 可 以 连接 任意 数目 的 图 顶点 ,此 模型 中 图 的 边 称 
为 超 边 , 超 图 比 简单 图 的 适用 性 更 强 , 保 留 的 信息 更 多 。 

(2) 并 发 性 ; 可 以 配置 在 一 台 或 上 百 台 计算 机 上 ,提供 了 一 个 图 分 割 机 制 。 

(3) 具有 数据 库 的 一 些 特点 : 是 一 个 基于 内 存 的 图 数据 库 ,. 有 丰富 的 数据 库 特 点 。 

(4) 支持 批 处 理 : 支持 大 型 在 线 查 询 和 离线 批 处 理 , 并 且 支 持 同步 和 不 同步 批 处 理 计算 。 


3.4 大 数据 分 析 的 应 用 


大 数据 分 析 有 广泛 的 应 用 ,以 下 从 互联 网 和 医疗 领域 为 例 , 介 绍 大 数据 的 应 用 。 
1. 互联 网 领域 大 数据 分 析 的 典型 应 用 
D 用 户 行为 数据 分 析 。 如 精准 广告 投放 ,行为 习惯 和 喜好 分 析 、 产 品 优化 等 。 
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(2) 用 户 消费 数据 分 析 。 如 精准 营销 、 信 用 记录 分 析 、 活 动 促 销 、 理 财 等 。 

(3) 用 户 地 理 位 置 数据 分 析 。 如 O2O(Online To Offline, 在 线 离线 / 线 上 到 线 下 ) 推 
广 .商家 推荐 .交友 推荐 等 。 

(4) 互联 网 金融 数据 分 析 。 如 P2P(PeerTp-Peer) .小 额 贷款 .支付 、 信 用、 供应 链 金 融 等 。 

(5) 用 户 社交 等 数据 分 析 。 如 流行 元 素 分 析 、 和 与 论 监控 分 析 、 社 会 问题 分 析 等 。 

2. 医疗 领域 大 数据 分 析 的 典型 应 用 

(1) 公共 卫生 : 分 析 疾 病 模式 和 追踪 疾病 暴发 及 传播 方式 途径 ,提高 公共 卫生 监测 和 
反应 速度 。 更 快 更 准确 地 研制 靶 向 疫苗 ,如 开发 每 年 的 流感 疫苗 。 

(2) 循 证 医学 : 分 析 各 种 结构 化 和 非 结 构 化 数据 ,如 电子 病历 .财务 和 运营 数据 临床 
资料 和 基因 组 数据 ,从 而 寻找 与 病症 信息 相 匹 配 的 治疗 方案 、 预 测 疾病 的 高 危 患者 或 提供 更 
多 高 效 的 医疗 服务 。 

(3) 基因 组 分 析 : 更 有 效 和 低 成 本 的 执行 基因 测序 ,使 基因 组 分 析 成 为 正规 医疗 保健 
决策 的 必要 信息 并 纳入 病人 病历 记录 。 

(4) 设备 远程 监控 : 从 住院 和 家 庭 医疗 装置 采集 和 分 析 实 时 大 容量 的 快速 移动 数据 ， 
用 于 安全 监控 和 不 良 反应 的 预测 。 

(5) 病人 资料 分 析 : 全 面 分 析 病 人 个 人 信息 ,找到 能 从 特定 保健 措施 中 获 益 的 个 人 。 

(6) 疾病 预测 : 如 预测 特定 病人 的 住院 时 间 ,哪些 病人 会 选择 非 急需 性 手术 ,哪些 病人 
不 会 从 手术 治疗 中 受益 ,哪些 病人 会 更 容易 出 现 并 发 症 等 。 

(7) 临床 操作 : 相对 更 有 效 的 医学 研究 ,发 展 出 临床 相关 性 更 强 和 成 本 效益 更 高 的 方 
法 用 来 诊断 和 治疗 病人 。 

3. 应 用 案例 : 某 互联 网 公司 对 用 户 行为 数据 进行 实时 分 析 

分 析 步 又 如 下 。 

(1) 首先 提出 分 析 方 案 : 制定 测试 分 析 策略 ,数据 来 源 于 网 站 用 户 行为 数据 ,数据 量 是 
90 天 细节 数据 约 50 亿 条 。 

(2) 简单 测试 : 先 通过 5 台 PC Server, FA 1 一 2 天 的 数据 ,演示 如 何 ETL( 见 注释 )， 
如 何 做 简单 应 用 。 

(3) 实际 数据 导入 : 按照 制定 的 测试 方案 .开始 导入 90 天 的 数据 ,在 导入 数据 中 解决 如 
下 问题 : 四 解决 步 长 问题 (每 次 导入 记录 条 数 ), 有 效 访 问 次 数 。 回 解决 HBase 数据 和 
SQLServer 数据 的 关联 问题 等 。 

(4) 数据 源 及 数据 特征 分 析 。 

90 天 的 数据 量 : Web 数据 7 亿 条 .App 数据 37 亿 条 ,总 估计 在 50 亿 条 。 

每 个 表 有 20 多 个 字段 ,一 半 字 符 串 类 型 ,一 半数 值 类 型 ,一 行 数据 估计 2000B。 

每 天 导入 5000 万 行 , 约 100G 存储 空间 .100 天 是 10T 的 数据 量 。 

50 亿 条 数据 若 全 部 导入 需要 900G 的 存储 量 (压缩 比 在 11 : 1)。 

假设 同时 装载 到 内 存 中 分 析 的 量 在 1/3, 那 总 共 需 要 300G 的 内 存 。 

(5) 硬件 设计 方案 。 

总 共 配 制 需 要 300G 的 内 存 。5 台 PC Server, 每 台 内 存 : 64G .4CPU 4Core。 

机 器 角色 : 一 台 Naming、Map ,一 台 Client, Reduce, Map. H&R = f AE Map. 
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(6) ETL(Extract Transform Load) 过 程 (将 数据 从 来 源 端 经 过 抽取 、 转 换 、 加 载 至 目的 
端的 过 程 ) 。 

历史 数据 集中 导 : 每 天 的 细节 数据 和 SQL Server 关联 后 ,打上 标签 ,再 导入 集 市 。 

增 量 数据 自动 导 : 每 天 导 人 数据 ,生成 汇总 数据 。 

维度 数据 被 缓存 : 细节 数据 按照 日 期 打上 标签 , 跟 缓存 的 维度 数据 关联 后 入 集 市 。 

(7) 系统 配置 : 系统 内 部 管理 .内 存 参数 等 配置 。 

(8) 互联 网 用 户 行 为 分 析 结 果 。 

浏览 器 分 析 : 运行 时 间 、 有 效 时 间 、 启 动 次 数 、 覆 盖 人 数 等 。 

主流 网 络 电视 : 浏览 总 时 长 有 效 流量 时 长 ,浏览 次 (PV) 数 覆盖 占有 率 、1 天 内 相同 访 
客 多 次 访问 网 站 、 只 计算 为 1 个 独立 访客 (UV) 占 有 率 等 。 

主流 电 商 网 站 : 在 线 总 时 长 有效 在 线 总 时 长 ,独立 访问 量 、 网 站 覆盖 量 等 。 

主流 财经 网 站 : 在 线 总 时 长 有效 总 浏览 时 长 .独立 访问 量 、 总 覆盖 量 等 。 

(9) 技术 上 分 析 测 试 结果 。 

90 天 数据 , 近 10T 的 原始 数据 ,大 部 分 的 分 析 查 询 都 是 被 秒 级 响应 。 

实现 了 Hbase 数据 与 SQLServer 中 维度 表 关联 分 析 的 需求 。 

(10) 分 析 测 试 的 经 验 总 结 。 

由 于 事先 做 了 预算 限制 ,投入 并 不 大 ,并 且 解 决 了 Hive 不 够 实时 的 问题 。 有 关 Hive, 
请 参考 5.2 节 。 
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大 数据 分 析 为 处 理 结构 化 与 非 结 构 化 的 数据 提供 了 新 的 途径 ,这 些 分 析 在 具体 应 用 上 
还 有 很 长 的 路 要 走 , 在 未 来 的 日 子 里 将 会 看 到 更 多 的 产品 和 应 用 系统 在 生活 中 出 现 。 通 过 
本 章 内 容 的 学 习 , 学 生 应 该 学 会 大 数据 分 析 的 方法 ,掌握 大 数据 分 析 的 一 般 流程 与 主要 技 
术 , 为 大 数据 的 分 析 应 用 奠定 基础 。 





习题 3 


一 、 填空 题 

1. 大 数据 分 析 是 指 s 

2. 大 数据 分 析 的 基本 方法 有 预测 性 分 析 、 可 视 化 分 析 、 \ 语 义 引擎 ,数据 质量 
和 数据 管理 。 

3. 大 数据 处 理 流程 可 以 分 解 为 定义 问题 .数据 理解 .数据 采集 、 ` 数 据 分 析 、 分 
析 结 果 解 析 等 。 

4. 深度 学 习 和 是 大 数据 分 析 的 基础 。 

5. 知识 图 谱 泛 指 各 种 大 型 ,是 把 所 有 不 同 种 类 的 信息 连接 在 一 起 而 得 到 的 一 
个 关系 网 络 。 

6. 图 数据 中 主要 包括 图 中 的 节点 以 及 连接 节点 的 边 。 在 图 中 ,顶点 和 边 实例 化 构成 各 
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种 类 型 的 图 ,如 标签 图 .属性 图 .语义 图 以 及 等 。 


T. 人 们 对 大 数据 的 处 理 形 式 主要 是 对 静态 数据 的 批量 处 理 ， 





的 综合 处 理 等 。 


8. 
9, 


m = ç r = 


是 典型 的 大 数据 批量 处 理 架构 。 
交互 式 数据 处 理 系统 的 典型 代表 是 Berkeley 的 系统 等 。 
10. 图 数据 处 理 有 一 些 典型 的 系统 ,如 微软 的 





系统 。 





简 答 题 


. 简 述 大 数据 的 分 析 流程 。 
. 简 述 深度 学 习 。 


简 述 知识 计算 。 


. 简 述 批量 数据 。 


简 述 流 式 数据 。 


,以 及 对 图 数据 
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内 容 与 要 求 
本 章 主要 介绍 大 数据 可 视 化 的 概念 、 大 数据 可 视 化 的 过 程 和 大 数据 可 视 化 工具 
Tableau, 
在 “大 数据 可 视 化 简介 "一 节 中 ,需要 掌握 大 数据 可 视 化 和 数据 可 视 化 的 概念 ; 了 
解 大 数据 可 视 化 的 过 程 。 


在 “大 数据 可 视 化 工具 Tableau” 一 节 中 ,需要 了 解 大 数据 可 视 化 工具 的 特性 ,掌握 
Tableau 工具 的 使 用 。 


本 章 的 重点 是 大 数据 可 视 化 的 概念 ,难点 是 如 何 使 用 Tableau 来 设计 可 视 化 产品 。 


在 大 数据 时 代 , 人 们 不 仅 处 理 着 海量 的 数据 ,同时 还 要 对 这 些 数 据 进 行 加 工 \ 传 播 和 分 
享 等 。 当 前 ,实现 这 些 形式 的 最 好 方法 是 大 数据 可 视 化 。 大 数据 可 视 化 让 数据 变 得 更 加 可 
信 , 它 像 文字 一 样 ,为 人 们 讲述 着 各 种 各 样 的 故事 。 


4.1 大 数据 可 视 化 简介 


众所周知 ,人 们 描述 日 常 行为 ,行踪 、 喜 欢 做 的 事情 等 时 ,这 些 无 法 量化 的 数据 量 是 大 得 
惊人 的 。 很 多 人 说 大 数据 是 由 数字 组 成 的 ,而 有 些 时 候 数字 是 很 难看 懂 的 。 而 数据 可 视 化 
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可 以 让 人 们 与 数据 交互 ,其 超越 了 传统 意义 上 的 数据 分 析 。 数 据 可 视 化 给 人 们 的 生活 带 来 
了 演讲 ,让 人 们 对 枯燥 的 数字 产生 了 兴趣 。 

人 们 如 何 得 到 干净 和 有 用 的 可 视 化 数据 呢 ? 它 会 消耗 人 们 多 少时 间 呢 ? 答案 就 是 : 人 们 只 
需 选择 正确 的 数据 可 视 化 工具 ,这 些 工 具 可 以 帮助 人 们 在 几 分 钟 之 内 将 所 有 需要 的 数据 可 视 化 。 

1. 大 数据 可 视 化 与 数据 可 视 化 

数据 可 视 化 是 关于 数据 的 视觉 表现 形式 的 科学 技术 研究 。 其 中 ,数据 的 视觉 表现 形式 
被 定义 为 以 某 种 概要 形式 抽 提 出 来 的 信息 ,包括 相应 信息 单位 的 各 种 属性 和 变量 。 

人 们 常见 的 那些 柱状 图 、 饼 图 、 直 方 图 、 散 点 图 等 是 最 原始 的 统计 图 表 , 也 是 数据 可 视 化 
最 基础 .最 常见 的 应 用 。 因 为 这 些 原始 统计 图 表 只 能 呈现 数据 的 基本 信息 ,所 以 当面 对 复杂 
或 大 规模 结构 化 、 半 结构 化 和 非 结构 化 数据 时 ,数据 可 视 化 的 设计 就 要 复杂 很 多 。 

因此 ,大 数据 可 视 化 可 以 理解 为 数据 量 更 加 庞大 ,结构 更 加 复杂 的 数据 可 视 化 。 例 如 ， 
图 4-1 展示 的 是 非洲 大 型 哺乳 动物 种 群 的 稳定 性 和 濒危 状况 。 图 中 面 朝 左 边 的 动物 数量 正 
在 不 断 减少 ,而 面 朝 右边 的 动物 状况 则 比较 稳定 。 所 以 ,在 数据 急剧 增加 的 背景 下 ,数据 可 
视 化 将 推动 大 数据 更 为 广泛 的 应 用 就 显得 尤为 重要 。 
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图 4-1 非洲 大 型 哺乳 动物 种 群 的 稳定 性 和 濒危 状况 


综合 以 上 描述 , 现 将 大 数据 可 视 化 与 数据 可 视 化 做 以 下 比较 ,如 表 4-1 所 示 。 
表 4-1 大 数据 可 视 化 与 数据 可 视 化 的 比较 
大 数据 可 视 化 数据 可 视 化 








数据 类 型 结构 化 、 半 结构 化 、 非 结构 化 结构 化 








表现 形式 多 种 形式 主要 是 统计 图 表 
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续 表 
大 数据 可 视 化 数据 可 视 化 
实现 手段 各 种 技术 方法 ,工具 各 种 技术 方法 .工具 














结果 发 现 数据 中 蕴含 的 规律 特征 注重 数据 及 其 结构 关系 








2. 大 数据 可 视 化 的 过 程 

大 数据 可 视 化 的 过 程 主要 有 以 下 9 个 方面 。 

1) 数据 的 可 视 化 

数据 可 视 化 的 核心 是 采用 可 视 化 元 素来 表达 原始 数据 ,例如 ,通常 柱状 图 利用 柱子 的 高 
度 , 反 映 数据 的 差异 。 图 4-2 中 显示 的 是 中 国电 信和 区域 人 群 检测 系统 ,其 中 利用 柱状 图 显示 
年 龄 的 分 布 情况 ,利用 饼 图 显示 性 别 的 分 布 情况 。 

2) 指标 的 可 视 化 

在 可 视 化 的 过 程 中 ,采用 可 视 化 元 素 的 方式 将 指标 可 视 化 ,会 将 可 视 化 的 效果 增色 很 
多 ,例如 ,对 QQ 群 大 数据 资料 进行 可 视 化 分 析 中 ,数据 用 各 种 图 形 的 方式 展示 ,图 4-3 中 显 
示 的 是 将 近 100G 的 QQ 群 数据 ,通过 数据 可 视 化 把 数据 作为 点 和 线 连接 起 来 ,其 中 企鹅 图 
标的 节点 代表 QQ, 群 图 标的 节点 代表 群 ,每 条 线 代表 一 个 关系 ,一 个 QQ 可 以 加 入 N 个 
群 ,一 个 群 也 可 以 有 NN 个 QQ 加 入 。 线 分 别 代表 : 黄色 为 群 主 ; 绿色 为 群 管理 员 ; 
蓝 色 为 群 成 员 。 群 主 和 管理 员 的 关系 线 比 普通 的 群 成 员 长 一 些 , 这 是 为 了 突出 群 内 的 重要 
成 员 的 关系 。 
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图 4-2 区域 人群 检测 系统 


3) 数据 关系 的 可 视 化 

数据 关系 往往 也 是 可 视 化 数据 核心 表达 的 主题 。 例 如 .图 4-4 中 研究 操作 系统 的 分 布 ， 
其 中 显示 的 是 将 Windows 比喻 成 太阳 系 .Windows XP, Window 7 等 比喻 成 太阳 系 中 的 行 
E: 其 他 系统 比喻 成 其 他 星系 。 通 过 这 个 图 人 们 就 可 以 很 清晰 地 看 出 数据 之 间 的 关系 。 
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图 4-3 对 QQ 群 大 数据 资料 进行 可 视 化 分 析 
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图 4-4 操作 系统 分 布 
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4) 背景 数据 的 可 视 化 

很 多 时 候 , 光 有 原始 数据 是 不 够 的 ,因为 数据 没有 价值 ,信息 才 有 价值 。 例 如 ,设计 师 马 
特 。 罗 宾 森 (Matt Robinson) 和 汤姆 。 维 格 勒 沃 斯 (Tom Wrigglesworth) 用 不 同 的 圆珠笔 
和 字体 写 “Sample” 这 个 单词 。 因 为 不 同 字体 使 用 墨水 量 不 同 ,所 以 每 支 笔 所 剩 的 墨水 也 不 
同 。 于 是 就 产生 了 这 幅 有 趣 的 图 (如 图 4-5 所 示 ) ,在 这 幅 图 中 不 再 需要 标注 坐标 系 , 因 为 不 
同 的 笔 及 其 墨水 含量 已 经 包含 了 这 个 信息 。 





Sample Sample - — 

sample Sampl 

Sample, Sample — m 

Sam Sample See 
Sample — 
Sample - —rrax —a 
Sample ps 
Sample - 


图 4-5 马 特 。 罗 宾 森 和 汤姆 " 维 格 勒 沃 斯 的 “字体 测量 ” 


5) 转换 成 便于 接受 的 形式 

数据 可 视 化 的 功能 包括 数据 的 记录 传递 和 沟通 ,之 前 的 操作 实现 了 记录 和 传递 ,但 是 
沟通 可 能 还 需要 优化 ,这 种 优化 包括 按照 人 的 接受 模式 .习惯 和 能 力 等 进行 综合 改进 ,这 样 
才能 更 容易 地 被 人 们 接受 。 例 如 ,做 一 个 关于 “销售 计划 ”的 可 视 化 产品 ,原始 数据 是 销售 额 
列表 ,采用 柱状 图 来 表达 ; 在 图 表 中 增加 一 条 销售 计划 线 来 表示 销售 计划 数据 ; 最 后 在 销 
售 计划 线 上 增加 勾 和 叉 的 符号 ,来 表示 完成 和 未 完成 计划 ,如 此 看 图 表 的 人 更 容易 接受 。 

6) 聚焦 

所 谓 聚 焦 就 是 利用 一 些 可 视 化 手段 ,把 那些 需要 强化 的 小 部 分 数据 和 信息 按照 可 视 化 
的 标准 进行 再 次 处 理 。 

很 多 时 候 数据 、 信 息 、 符 号 对 于 接受 者 而 言 是 超 负 荷 的 ,这 时 人 们 就 需要 在 原来 的 可 视 
化 结果 基础 上 再 进行 聚焦 。 存 上 述 的 “销售 计划 ”中 ,假设 这 个 图 表 重 点 是 针对 没有 完成 计 
划 的 销售 员 的 ,那么 我 们 可 以 强化 “ 叉 ” 是 红色 的 。 如 果 柱 状 图 中 的 柱 是 黑色 , 勾 也 是 黑色 ， 
那么 红色 的 又 更 为 显眼 。 

7) 集中 或 者 汇总 展示 

对 这 个 “销售 计划 ”可 视 化 产品 来 说 ,还 有 很 大 的 完善 空间 ,例如 ,为 了 让 管理 者 更 好 地 
掌握 情况 ,人 们 可 以 增加 一 张 没 有 完成 计划 的 销售 人 员 数 据 表 ,这 样 管理 者 在 掌控 全 局 的 基 
础 上 ,还 可 以 很 容易 地 抓 住所 有 焦点 ,进行 逐一 处 理 。 

8) 收尾 的 处 理 

在 之 前 的 基础 上 ,人 们 还 可 以 进一步 修饰 。 这 些 修 饰 是 为 了 让 可 视 化 的 细节 更 为 精准 、 
甚至 优美 ,比较 典型 的 操作 包括 设置 标题 表明 数据 来 源 、 对 过 长 的 柱子 进行 缩 略 处 理 、 进 行 
表格 线 的 颜色 设置 .各 种 字体 、 图 素 粗 细 、 颜 色 设置 等 。 

9) 完美 的 风格 化 

所 谓 风格 化 就 是 标准 化 基础 上 的 特色 化 ,最 典型 的 如 增加 企业 或 个 人 的 LOGO, il À 
们 知道 这 个 可 视 化 产品 属于 哪个 企业 、 哪 个 人 。 而 真正 做 到 风格 化 ,还 是 有 很 多 不 同 的 操作 ， 
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例如 ,布局 ,用 色 , 典 型 的 图 标 ,甚至 动画 的 时 间 、 过 渡 等 ,从 而 让 人 们 更 直观 地 理解 和 接受 。 


4.2 大 数据 可 视 化 工具 Tableau 


现在 已 经 出 现 了 很 多 大 数据 可 视 化 工具 ,从 最 简单 的 Excel 到 基于 在 线 的 数据 可 视 化 
工具 .三维 工具 .地 图 绘制 工具 以 及 复杂 的 编程 工具 等 , 正 逐 步 地 改变 着 人 们 对 大 数据 可 视 
化 的 认识 。 

1. 大 数据 可 视 化 工具 的 特性 

传统 的 数据 可 视 化 工具 仅仅 是 将 数据 加 以 组 合 ,通过 不 同 的 展现 方式 提供 给 用 户 , 用 于 
发 现 数据 之 间 的 关联 信息 。 随 着 云 和 大 数据 时 代 的 来 临 ,数据 可 视 化 产品 已 经 不 再 满足 于 
使 用 传统 的 数据 可 视 化 工具 来 对 数据 仓库 中 的 数据 进行 抽取 、 归 纳 并 简单 的 展现 。 数 据 可 
视 化 产品 必须 满足 互联 网 的 大 数据 需求 ,快速 地 收集 筛选、 分析、 归纳 .展现 决策 者 所 需要 
的 信息 ,并 根据 新 增 的 数据 进行 实时 更 新 。 因 此 ,在 大 数据 时 代 , 数 据 可 视 化 工具 必须 具有 
以 下 特性 。 

(1) 实时 性 : 数据 可 视 化 工具 必须 适应 大 数据 时 代数 据 量 的 爆炸 式 增长 需求 ,快速 地 
收集 和 分 析 数 据 并 对 数据 信息 进行 实时 更 新 。 

(2) 简单 操作 : 数据 可 视 化 工具 满足 快速 开发 .易于 操作 的 特性 ,能 满足 互联 网 时 代 信 
息 多 变 的 特点 。 

(3) 更 丰富 的 展现 : 数据 可 视 化 工具 需 具 有 更 丰富 的 展现 方式 ,能 充分 地 满足 数据 展 
现 的 多 维度 要 求 。 

(4) 多 种 数据 集成 支持 方式 : 数据 的 来 源 不 仅仅 局 限于 数据 库 , 数 据 可 视 化 工具 将 支 
持 团队 协作 数据 ,数据 仓库 .文本 等 多 种 方式 ,并 能 够 通过 互联 网 进行 展现 。 

2. Tableau 简介 

Tableau 是 一 款 功 能 非常 强大 的 可 视 化 数据 分 析 软 件 , 其 定位 在 数据 可 视 化 的 商务 智 
能 展现 工具 ,可 以 用 来 实现 交互 的 .可 视 化 的 分 析 和 仪表 板 分 析 应 用 。 就 和 Tableau 这 个 词 
汇 的 原意 “画面 一样, 它 带 给 用 户 美好 的 视觉 感官 。 

Tableau 的 特性 主要 包括 以 下 6 个 方面 。 

(1) 自助 式 BI(Bussiness Intelligence, 商业 智能 ) .IT 人 员 提 供 底 层 的 架构 .业务 人 员 
创建 报表 和 仪表 板 。Tableau 允许 操作 者 将 表格 中 的 数据 转变 成 各 种 可 视 化 的 图 形 、 强 交 
互 性 的 仪表 板 并 共享 给 企业 中 的 其 他 用 户 。 

(2) 友好 的 数据 可 视 化 界面 .操作 简单 ,用户 通过 简单 的 拖 电 发 现 数据 背后 所 隐藏 的 业 
务 问题 。 

(3) 与 各 种 数据 源 之 间 实 现 无 颖 连接 。 

(4) 内 置地 图 引擎 。 

(5) 支持 两 种 数据 连接 模式 ,Tableau 的 架构 提供 了 两 种 方式 访问 大 数据 量 , 即 内 存 计 
算 和 数据 库 直 连 。 

(6) 灵活 的 部 署 . 适 用 于 各 种 企业 环境 。 

Tableau 全 球 拥有 一 万 多 客户 ,分 布 在 全 球 100 多 个 国家 和 地 区 .应 用 领域 遍及 商务 服 
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务 、 能 源 . 电 信和 ,金融 服务 、 互 联网 ,生命 科学 、 医 疗 保健 、 制 造 业 、 媒 体 娱乐 .公共 部 门 . 教 育 和 
零售 等 各 个 行业 。 

Tableau 有 桌面 版 和 服务 器 版 。 桌 面 版 包括 个 人 版 开发 和 专业 版 开发 ,个 人 版 开发 只 
适用 于 连接 文本 类 型 的 数据 源 ; 专业 版 开发 可 以 连接 所 有 数据 源 。 服 务 器 版 可 以 将 桌面 版 
开发 的 文件 发 布 到 服务 器 上 ,共享 给 企业 中 其 他 的 用 户 访问 ; 能 够 方便 地 典 入 到 任何 门户 
或 者 Web 页 面 中。 

Tableau 支持 的 数据 接口 多 达 24 种 ,其 中 常见 的 数据 接口 如 表 4-2 所 示 。 


表 4-2 Tableau 的 常见 数据 接口 

















数据 接口 说 明 
Microsoft Excel 可 以 进行 各 种 数据 的 处 理 ,统计 分 析 和 辅助 决策 操作 的 软件 
Microsoft Access 微软 发 布 的 关系 数据 库 管理 系统 
Text files 文本 文件 





Aster Data nCluster | 一 个 大 型 数据 管理 和 数据 分 析 的 新 平台 





Microsoft SQL Server | 关系 型 数据 库 管 理 系统 ,使 用 集成 的 商业 智能 工具 提供 了 企业 级 的 数据 管理 





MySQL 关系 型 数据 库 管 理 系统 ,在 Web 应 用 方面 表现 最 好 





关系 数据 库 管理 系统 ,系统 可 移植 性 好 、 使 用 方便 、 功 能 强 ,适用 于 各 类 大 、 中 、 
小 、 微 机 环境 


Oracle 





关系 型 数据 库 管理 系统 ,主要 应 用 于 大 型 应 用 系统 ,具有 较 好 的 可 伸缩 性 ,可 支 





Ee 持 从 大 型 机 到 单 用 户 环境 ,应 用 于 所 有 常见 的 服务 器 操作 系统 平台 下 
基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 结构 化 的 数据 文件 映射 为 二 张 数据 
Hadoop Hive 库 表 ,并 提供 简单 的 SQL 查询 功能 ,可 以 将 SQL 语句 转换 为 MapReduce 任务 进 


行 运行 





3. Tableau 入 门 操作 

下 面 将 介绍 Tableau 的 入 门 操作 ,使 用 软件 自 带 的 示例 数据 ,介绍 如 何 连 接 数 据 、 创 建 
视图 、 创 建 仪 表 板 和 创建 故事 。 

(1) 连接 数据 。 启 动 Tableau 后 要 做 的 第 一 件 事 是 连接 数据 。 

O 选择 数据 源 。 在 Tableau 的 工作 界面 的 左 侧 显示 可 以 连接 的 数据 源 , 如 图 4-6 所 示 。 

© 打开 数据 文件 。 这 里 以 Excel 文件 为 例 , 选 择 Tableau 自 带 的 “超市 . xls" 文 件 ,如 
图 4-7 所 示 为 打开 文件 后 的 工作 界面 。 

@ 设置 连接 。 超 市 . xls 中 有 3 个 工作 表 , 将 工作 表 拖 至 联接 区 域 就 可 以 开始 分 析 数 据 了 。 
例如 ,将 “订单 "工作 表 拖 至 联接 区 域 .然后 单 击 工作 表 选 项 卡 开始 分 析 数 据 ,如 图 4-8 所 示 。 

(2) 构建 视图 。 连 接 到 数据 源 之 后 ,字段 作为 维度 和 度量 显示 在 工作 短 左 侧 的 数据 窗 
格 中 ,将 字段 从 数据 窗 格 拖 放 到 功能 区 来 创建 视图 。 

D 将 维度 拖 至 行 、 列 功能 区 。 单 击 图 4-8 下 面 的 “工作 表 1” 切 换 到 数据 窗 格 。 例 如 ,将 窗 
格 左 侧 中 “维度 "区域 里 的 “地 区 ”和 * 细 分 " 拖 至 行 功能 区 ,“ 类 别 " 拖 至 列 功能 区 ,如 图 4-9 所 示 。 

© 将 度量 拖 至 “文本 ”。 例 如 ,将 数据 窗 格 左 侧 中 “度量 "区 域 里 的 “销售 额 * 拖 至 窗 格 
“标记 ”中 的 “文本 ”标记 卡 上 ,如 图 4-10 所 示 。 

这 时 ,在 图 4-10 中 窗 格 的 中 间 区 域 ,数据 的 交叉 表 视 图 就 呈现 出 来 了 。 

© 显示 数据 。 将 图 10“ 标 记 ” 卡 中 “总 计 ( 销 售 额 )” 拖 至 列 功能 区 ,数据 就 会 以 图 形 的 
方式 显示 出 来 ,如 图 4-11 所 示 。 
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图 4-6 Tableau 的 工作 界面 
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图 4-7 打开 的 “超市 . xls" 文 件 
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图 4-8 “订单 "工作 表 拖 至 联接 区 域 
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显示 数据 








从 数据 窗 格 “ 维 度 ” 区 域 中 将 “地 区 ” 拖 至 “颜色 ”标记 卡 上 ,不 
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同 地 区 的 数据 就 会 以 不 同 的 


颜色 显示 ,从 而 可 以 快速 挑 出 业绩 最 好 和 最 差 的 产品 类 别 、 地 区 和 客户 细 分 ,如 图 4-12 所 示 。 
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图 4-12 使 用 颜色 显示 更 多 数据 


当 鼠 标 在 图 形 上 移动 时 ,会 显示 与 之 对 应 的 相关 数据 ,如 
图 4-12 中 白色 浮动 框 。 

对 于 数据 的 显示 图 形 还 可 以 进行 修改 , 单 击 图 4-12 工具 
栏 右 侧 的 “智能 显示 ”按钮 ,打开 “智能 显示 " 窗 格 ,如 图 4-13 
中 所 示 。 在 “智能 窗 格 ” 中 凡是 变 亮 的 按钮 即 可 为 当前 数据 所 
使 用 ,例如 ,这 里 就 是 “文本 表 ”“ 压 力图 ”“ 突 出 显示 表 ”、“ 饼 
图 ”等 12 个 图 形 可 以 使 用 。 

(3) 创建 仪表 板 。 当 对 数据 集 创 建 了 多 个 视图 后 ,就 可 以 
利用 这 些 视图 组 成 单个 仪表 板 。 

D 新 建 仪表 板 。 单 击 图 4-14 下 方 中 的 “新 建 仪 表 板 ” 按 
钮 ,打开 仪表 板 。 然 后 在 “仪表 板 ” 的 “大 小 ”列表 中 适当 调整 
大 小 。 

© 添加 视图 。 将 仪表 板 中 显示 的 视图 依次 拖 入 编辑 视图 
中 。 如 图 4-15 所 示 , 将 “销售 地 图 ” 放 在 上 方 .“ 销 售 客 户 细 分 ” 
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图 4-13 智能 显示 


和 “销售 产品 细 分 "分别 放 在 下 方 。 
(4) 创建 故事 。 使 用 Tableau 故事 点 ,可 以 显示 事实 间 的 关联 提供 前 后 关系 ,以 及 演 
示 决 策 与 结果 间 的 关系 。 





单 击 菜单 命令 “故事 ”| "新建 故事 ”打开 故 事 视图 。 从 “仪表 板 和 工作 表 ” 区 域 中 将 视图 


或 仪表 板 拖 至 中 间 区 域 ,如 图 4-16 所 示 。 
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图 4-15 添加 视图 
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图 4-16 创建 故事 点 


在 导航 器 中 , 单 击 故 事 点 ,可 以 添加 标题 。 单 击 * 新 空白 点 ”按钮 添加 空白 故事 点 ,继续 
拖 人 视图 或 仪表 板 。 单 击 “ 复 制 ? 按 钮 创建 当前 故事 点 的 副本 ,然后 可 以 修改 该 副本 。 

O) Rt THEM. 

D RETER. ELE RE RABA” MARTER. RA 0 1 T. R 
中 的 “保存 ”按钮 。 

© 发 布 工 作 簿 。 可 以 通过 “服务 器 "|" 发 布 工 作 德 " 来 实现 。 

对 于 Tableau 工作 簿 的 发 布 方 式 有 多 种 ,如 图 4-17 所 示 , 其 中 分 享 工作 德 最 有 效 的 方 
式 是 发 布 到 Tableau Online 和 Tableau Server, Tableau 发 布 的 工作 簿 是 最 新 、 安 全 ,完全 
交互 式 的 ,可 以 通过 浏览 器 或 移动 设备 观看 。 

Ways to Share 


T b E 


Reader 








图 4-17 工作 短发 布 
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通过 以 上 五 部 分 操作 ,可 以 创建 最 基本 的 可 视 化 产品 。 但 是 Tableau 的 功能 却 远 远 不 
止 这 些 , 如 果 需 要 掌握 其 更 多 的 操作 和 功能 ,还 需要 进一步 的 学 习 , 才 能 真正 对 海量 的 数据 
进行 更 加 复杂 的 可 视 化 设计 。 


本 章 小 结 


大 数据 可 视 化 是 一 个 儿 新 的 领域 ,可 视 化 研究 的 重点 在 于 仔细 研究 数据 , 讲 出 大 多 数 人 
从 不 知晓 但 却 渴望 听 到 的 好 故事 ,从 而 了 解 它们 背后 蕴含 的 信息 。 通 过 本 章 的 学 习 , 可 以 对 
大 数据 可 视 化 有 一 个 基本 的 了 解 ,为 进一步 学 习 大 数据 可 视 化 打下 理论 基础 。 


习题 4 


一 、 填 空 题 
1. 大 数据 可 视 化 可 以 理解 为 数据 量 更 加 庞大 ,结构 更 加 复杂 的 
2. 数据 可 视 化 的 核心 是 采用 来 表达 原始 数据 。 

3. 数据 可 视 化 的 功能 包括 数据 的 记录 、 和 沟通 。 
4. Tableau 是 一 款 功 能 非常 强大 的 数据 分 析 软 件 。 
5 
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.启动 Tableau 后 要 做 的 第 一 件 事 是 3 
. 在 Tableau 中 对 于 数据 的 显示 图 形 可 以 使 用 窗 格 中 的 按钮 来 进行 修改 。 
. 在 Tableau 中 , 当 对 数据 集 创建 了 多 个 视图 后 ,就 可 以 利用 这 些 视图 组 成 
8. 使 用 Tableau ,可 以 显示 事实 间 的 关联 、 提 供 前 后 关系 ,以 及 演示 决策 与 结 
果 间 的 关系 。 
9. 在 Tableau 中 , 单 击 菜单 中 的 “新 建 故事 ”, 打 开 故 事 视图 。 
10. Tableau 工作 簿 的 发 布 最 有 效 的 方式 是 发 布 到 Tableau Online 和 Š 
二 、 简 答题 
. 比较 数据 可 视 化 和 大 数据 可 视 化 。 
. 简 述 大 数据 可 视 化 的 过 程 。 
. 简 述 大 数据 可 视 化 工具 的 特性 。 
. 简 述 在 Tableau 中 如 何 连接 数据 。 
. 简 述 在 Tableau 中 如 何 创建 故事 。 
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内 容 与 要 求 

本 章 主要 介绍 Hadoop 的 应 用 现状 及 其 架构 。Hadoop 允许 用 户 在 集群 服务 器 上 
使 用 简单 的 编程 模型 对 大 数据 集 进 行 分 布 式 处 理 。 

“Hadoop 简介 ”一 节 中 介绍 Hadoop 的 起 源 及 功能 与 优势 ,要 求 了 解 Hadoop 优势 
及 应 用 现状 。 

“Hadoop 架构 及 组 成 ”一 节 中 介绍 Hadoop 的 结构 ,要 求 了 解 其 主要 核心 模块 
HDFS 和 MapReduce, 并 了 解 其 他 模块 的 功能 。 

“Hadoop 应 用 分 析 " 一 节 中 通过 对 数据 排序 来 了 解 Hadoop 的 工作 机 制 。 


本 章 重 点 是 了 解 Hadoop 的 功能 与 特点 ,难点 是 了 解 各 Hadoop 核心 模块 的 
功能 。 


用 户 使 用 Hadoop 开发 分 布 式 程序 ,可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 ,充分 利 
用 集群 的 作用 高 速 运算 和 存储 。 绝 大 多 数 从 事 大 数据 处 理 的 行业 和 公司 都 借助 Hadoop 
平台 进行 产品 开发 ,并 对 Hadoop 本 身 的 功能 进行 拓展 和 演化 , 极 大 地 丰富 了 Hadoop 的 
性 能 。 




















大 数据 技术 与 应 
本 


5.1 Hadoop 简介 


Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。Hadoop 是 以 分 布 式 
文件 系统 (Hadoop Distributed File System, HDFS) 和 MapReduce 等 模块 为 核心 ,为 用 户 提 
供 细节 透明 的 系统 底层 分 布 式 基 础 架构 。 用 户 可 以 利用 Hadoop 轻松 地 组 织 计 算 机 资源 ， 
搭建 自己 的 分 布 式 计算 平台 ,并 且 可 以 充分 地 利用 集群 的 计算 和 存储 能 力 , 完 成 海量 数据 的 
处 理 。 


5.1.1 Hadoop 简 史 


1. Hadoop 起 源 

Hadoop 这 个 名 称 是 由 它 的 创始 人 Doug Cutting 命名 的 ,来 源 于 Doug Cutting 儿子 的 
棕 黄 色 大 象 玩 具 , 它 的 发 音 是 Lhadu:p]。Hadoop 的 图 标 如 图 5-1 所 示 。 

Hadoop 起 源 于 2002 年 Doug Cutting 和 Mike Cafarella 
开发 的 Apache Nutch 项 目 。Nutch 项 目 是 一 个 开源 的 网 络 [EGBE 
搜索 引擎 ,Doug Cutting 主要 负责 开发 的 是 大 范围 文本 搜索 
库 。 随 着 互联 网 的 飞速 发 展 ,Nutch 项 目 组 意识 到 其 构架 无 
法 扩展 到 拥有 数 十 亿 网 页 的 网 络 ,随后 在 2003 年 和 2004 年 
Google 先后 推出 了 两 个 支持 搜索 引擎 而 开发 的 软件 平台 。 
这 两 个 平台 一 个 是 谷歌 文件 系统 (Google File System, GFS). 
用 于 存储 不 同 设备 所 产生 的 海量 数据 ; 另 一 个 是 图 5-1 Hadoop 图 标 
MapReduce, 它 运行 在 GFS 之 上 ,负责 分 布 式 大 规模 数据 的 
计算 。 基 于 这 两 个 平台 .在 2006 年 初 .Doug Cutting 和 Mike Cafarella 从 Nutch 项 目 转移 
出 来 一 个 独立 的 模块 , 称 为 Hadoop, 

截至 2016 年 初 ,Apache Hadoop 版 本 分 为 两 代 。 第 一 代 Hadoop 称 为 Hadoop 1.0, 第 
二 代 Hadoop 称 为 Hadoop 2.0。 第 一 代 Hadoop 包含 三 个 版 本 ,分 别 是 0. 20. x、0.21.x 和 
0.22. x。 第 二 代 Hadoop 包含 两 个 版 本 ,分 别 是 0.23. x 和 2.x。 其 中 ,第 一 代 Hadoop 由 一 
个 分 布 式 文件 系统 HDFS 和 一 个 离线 计算 框架 MapReduce 组成; 第 二 代 Hadoop 则 包含 
一 个 支持 NameNode 横向 扩展 的 HDFS. 一 个 资源 管理 系统 Yarn 和 一 个 运行 在 Yarn 上 的 
离线 计算 框架 MapReduce。 相 比 之 下 ,Hadoop 2. 0 功能 更 加 强大 、 扩 展 性 更 好 并 且 能 够 支 
持 多 种 计算 框架 。 目 前 ,最 新 的 版 本 是 2016 年 初 发布 的 Hadoop 2.7.2。Hadoop 的 版 本 如 





























表 5-1 所 示 。 
表 5-1 Hadoop 的 版 本 
Hadoop 版 本 版 本 名 称 版 本 号 包含 内 容 
第 一 代 Hadoop 1.0 0. 20. x,0.21. x,0. 22. x HDFS, MapReduce 
第 二 代 Hadoop 2.0 0. 23. x,2. x HDFS, MapReduce, Yarn 等 
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2. Hadoop 特点 

Hadoop 可 以 高 效 地 存储 并 管理 海量 数据 ,同时 分 析 这 些 海量 数据 以 获取 更 多 有 价值 
的 信息 。Hadoop 中 的 HDFS 可 以 提高 读 写 速度 和 扩大 存储 容量 ,因为 HDFS 具有 优越 的 
数据 管理 能 力 ,并 且 是 基于 Java 语言 开发 的 ,具有 容错 性 高 的 特点 ,所 以 Hadoop 可 以 部 署 
在 低廉 的 计算 机 集群 中 。Hadoop 中 的 MapReduce 可 以 整合 分 布 式 文件 系统 上 的 数据 , 保 
证 快速 地 分 析 处 理 数 据 , 与 此 同时 还 采用 存储 元 余数 据 来 保证 数据 的 安全 性 。 

如 早期 使 用 Hadoop 是 在 Internet 上 对 搜索 关键 字 进 行内 容 分 类 。 要 对 一 个 10TB 的 
巨型 文件 进行 文本 搜索 ,使 用 传统 的 系统 将 需要 耗费 很 长 的 时 间 。 但 是 Hadoop 在 设计 时 
就 考虑 到 这 些 技术 瓶颈 问题 ,采用 并 行 执行 机 制 ,因此 能 大 大 地 提高 效率 。 


5.1.2 Hadoop 应 用 和 发 展 趋势 


Hadoop 的 应 用 获得 了 学 术 界 的 广泛 关注 和 研究 ,已 经 从 互联 网 领域 向 电信 、 电 子 商 
务 .银行 .生物 制药 等 领域 拓展 。 在 短 短 的 几 年 中 ,Hadoop 已 经 成 为 迄今 为 止 最 为 成 功 . 最 广 
泛 使 用 的 大 数据 处 理 主流 技术 和 系统 平台 ,在 各 个 行业 尤其 是 互联 网 行业 获得 了 广泛 的 应 用 。 

1. 国外 Hadoop 的 应 用 现状 

1) Facebook 

Facebook 使 用 Hadoop 存储 内 部 日 志 与 多 维 数据 ,并 以 此 作为 报告 ,分析 和 机 器 学 习 
的 数据 源 。 目 前 Hadoop 集群 的 机 器 节点 超过 1400 台 , 共 计 11 200 个 核心 CPU, 超 过 
15PB 原始 存储 容量 ,每 个 商用 机 器 节点 配置 了 8 核 CPU、12TB 数据 存储 ,主要 使 用 
Streaming API 和 Java API 编程 接口 。Facebook 同时 在 Hadoop 基础 上 建立 了 一 个 名 为 
Hive 的 高 级 数据 仓库 框架 ,Hive 已 经 正式 成 为 基于 Hadoop 的 Apache 一 级 项 目 。 

2) Yahoo 

Yahoo 是 Hadoop 的 最 大 支持 者 ,Yahoo 的 Hadoop 机 器 总 节点 数目 超过 42 000 个 ,有 
超过 10 万 的 核心 CPU 在 运行 Hadoop。 最 大 的 一 个 单 节点 集群 有 4500 个 节点 ,每 个 节点 
配置 了 4 核 CPU,4X1TB 磁盘 。 总 的 集群 存储 容量 大 于 350PB, 每 月 提交 的 作业 数目 超过 
1000 万 个 。 

3) eBay 

单 集群 超过 532 节点 集群 , 单 节点 8 核心 CPU ,容量 超过 5. 3PB 存储 。 大 量 使 用 
MapReduce 的 Java 接口 .Pig、Hive 来 处 理 大 规模 的 数据 ,还 使 用 HBase 进行 搜索 优化 和 研 
究 。(Pig、Hive、HBase 参见 5. 2.2 节 ) 

4) IBM 

IBM 蓝 云 也 利用 Hadoop 来 构建 云 基础 设施 。IBM 蓝 云 使 用 的 技术 包括 Ken 和 
PowerVM 虚拟 化 的 Linux 操作 系统 映像 及 Hadoop 并 行 工 作 量 调度 ,并 发 布 了 自己 的 
Hadoop 发 行 版 及 大 数据 解决 方案 。 

2. 国内 Hadoop 的 应 用 现状 

1) 百度 

百度 在 2006 年 就 开始 关注 Hadoop 并 开始 调研 和 使 用 ,其 总 的 集群 规模 达到 数 十 个 ， 
单 集群 超过 2800 台 机 器 节点 ,Hadoop 机 器 总 数 有 上 万 台 机 器 ,总 的 存储 容量 超过 100PB， 
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已 经 使 用 的 超过 74PB, 每 天 提交 的 作业 数目 有 数 千 个 之 多 ,每 天 的 输入 数据 量 已 经 超过 
7500TB, 输 出 超过 1700TB。 

2) 阿里 巴巴 

阿里 巴巴 的 Hadoop 集群 大 约 有 3200 台 服 务 器 ,大 约 30 000 物理 CPU 核心 ,总 内 存 
100TB, 总 的 存储 容量 超过 60PB, 每 天 的 作业 数目 超过 150 000 个 , Hivequery 查询 大 于 
6000 个 ,扫描 数据 量 约 为 7.5PB, 扫 描 文件 数 约 为 4 亿 , 存 储 利 用 率 大 约 为 80% ,CPU 利用 
率 平均 为 65% ,峰值 可 以 达到 80%。 阿 里 巴巴 的 Hadoop 集群 拥有 150 个 用 户 组 ,4500 个 
集群 用 户 , 为 淘宝 、 天 猫 、 一 淘 、 聚 划算 .CBU ,支付宝 提 供 底层 的 基础 计算 和 存储 服务 。 

3) 腾讯 

腾讯 也 是 使 用 Hadoop 最 早 的 中 国 互联 网 公司 之 一 ,腾讯 的 Hadoop 集群 机 器 总 量 超 
过 5000 台 , 最 大 单 集群 约 为 2000 个 节点 ,并 利用 Hadoop-Hive 构建 了 自己 的 数据 仓库 系 
统 。 腾 讯 的 Hadoop 为 腾讯 各 个 产品 线 提供 基础 云 计算 和 云 存 储 服 务 。 

4) 京东 

京东 从 2013 年 起 ,根据 自身 业务 高 速 发 展 的 需求 ,自主 研发 了 京东 HadoopNameNode 
Cluster 解决 方案 。 该 方案 主要 为 了 解决 两 个 瓶颈 问题 : 一 个 是 随 着 存储 文件 的 增加 ,机 器 
的 内 存 会 逐渐 地 增加 ,已 经 达到 了 内 存 的 瓶颈 另 一 个 是 随 着 集群 规模 的 扩大 ,要 求 快速 响 
应 客户 端的 请 求 , 原 有 系统 的 性 能 出 现 了 瓶颈 。 该 方案 以 ClouderaCDH3 作为 基础 ,并 在 其 
上 进行 了 大 量 的 改造 和 自主 研发 。 

3. Hadoop 的 发 展 趋势 

随 着 互联 网 的 发 展 ,新 的 业务 模式 还 将 不 断 涌现 。 在 以 后 相当 长 一 段 时 间 内 ,Hadoop 
系统 将 继续 保持 其 在 大 数据 处 理 领 域 的 主流 技术 和 平台 的 地 位 ,同时 其 他 种 种 新 的 系统 也 
将 逐步 与 Hadoop 系统 相互 融合 和 共存 。 

从 数据 存储 的 角度 看 ,前景 是 乐观 的 。 用 HDFS 进行 海量 文件 的 存储 ,具有 很 高 的 稳 
定性 。 在 Hadoop 生态 系统 中 ,使 用 HBase 进行 结构 化 数据 存储 ,其 适用 范围 广 , 可 扩展 性 
强 , 技 术 比 较 成 熟 ,在 未 来 的 发 展 中 占有 稳定 的 一 席 之 地 。 

从 数据 处 理 的 角度 看 ,存在 一 定 问题 。MapReduce 目前 存在 问题 的 本 质 原因 是 其 擅长 
处 理 静 态 数据 ,处 理 海量 动态 数据 时 必 将 造成 高 延迟 。 由 于 MapReduce 的 模型 比较 简单 ， 
造成 后 期 编程 十 分 困难 ,一 个 简单 的 计数 程序 也 需要 编写 很 多 代码 。 相 比 之 下 ,Spark 的 简 
单 高 效能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 的 算法 。 有 关 
Spark 的 介绍 详 见 第 9 章 。 

Hadoop 作为 大 数据 的 平台 和 生态 系统 ,已 经 步 人 稳步 理性 增长 的 阶段 。 未 来 ,和 其 他 
技术 一 样 ,面临 着 自身 新 陈 代谢 和 周围 新 技术 的 挑战 ,期 待 未 来 Hadoop 跟 上 时 代 的 发 展 ， 
不 断 地 更 新 改进 相关 技术 ,成 为 处 理 海量 数据 的 基础 平台 。 





5.2 Hadoop 的 架构 与 组 成 


Hadoop 分 布 式 系统 基础 框架 具有 创造 性 和 极 大 的 扩展 性 ,用 户 可 以 在 不 了 解 分 布 式 
底层 细节 的 情况 下 ,开发 分 布 式 程序 ,充分 利用 集群 的 威力 高 速 运算 和 存储 。 
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Hadoop 的 核心 组 成 部 分 是 HDFS, MapReduce 以 及 Common, 其 中 HDFS 提供 了 海量 
数据 的 存储 ,MapReduce 提供 了 对 数据 的 计算 ,Common 为 其 他 模块 提供 了 一 系列 文件 系 
统 和 通用 文件 包 。 


5.2.1 Hadoop 架构 介绍 


Hadoop 主要 部 分 的 架构 如 图 5-2 所 示 。Hadoop 的 核心 模块 包含 HDFS、MapReduce 
和 Common, HDFS 是 分 布 式 文件 系统 ; MapReduce 提供 了 分 布 式 计 算 编 程 框架 ; 
Common 是 Hadoop 体系 最 底层 的 一 个 模块 ,为 Hadoop 各 模块 提供 基础 服务 。 
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图 5-2 Hadoop 主要 部 分 的 架构 











对 比 Hadoop 1.0 和 Hadoop 2.0, 其 核心 部 分 变化 如 图 5-3 所 示 。 


Hadoop 1.0 Hadoop 2.0 


MapReduce HDFS MapReduce HDFS Yam 
Hadoop Common Hadoop Common | 


图 5-3 Hadoop 1. 0 和 Hadoop 2. 0 核心 对 比 图 














其 中 Hadoop 2.0 中 的 Yarn 是 在 Hadoop 1.0 中 的 MapReduce 基础 上 发 展 而 来 的 , 主 
要 是 为 了 解决 Hadoop 1. 0 扩展 性 较 差 且 不 支持 多 计算 框架 而 提出 的 。 


5.2.2 Hadoop 组 成 模块 


1. HDFS 

HDFS 是 Hadoop 体系 中 数据 存储 管理 的 基础 。 它 是 一 个 高 度 容错 的 系统 ,能 检测 和 
应 对 硬件 故障 ,用 于 在 低 成 本 的 通用 硬件 上 运行 。HDFS 简化 了 文件 的 一 致 性 模型 ,通过 流 
式 数据 访问 ,提供 高 吞吐 量 应 用 程序 数据 访问 功能 .适合 带 有 大 型 数据 集 的 应 用 程序 。 关 于 
HDFS 的 详细 介绍 参见 第 6 章 。 

2. MapReduce 

MapReduce 是 一 种 编程 模型 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 并 行 运算 。MapReduce 
将 应 用 划分 为 Map 和 Reduce 两 个 步骤 ,其 中 Map 对 数据 集 上 的 独立 元 素 进行 指定 的 操 
作 , 生 成 键 值 对 形式 的 中 间 结 果 。Reduce 则 对 中 间 结 果 中 相同 * 键 "的 所 有 ”* 值 ?进行 规约 ， 
以 得 到 最 终结 果 。MapReduce 这 样 的 功能 划分 ,非常 适合 在 大 量 计算 机 组 成 的 分 布 式 并 行 
环境 里 进行 数据 处 理 。MapReduce 以 JobTracker 节点 为 主 ,分 配 工作 以 及 负责 和 用 户 程 
序 通信 。 关 于 MapReduce 的 详细 介绍 参见 第 7 章 。 
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3. Common 


从 Hadoop 0. 20 版 本 开始 ,Hadoop Core 模块 更 名 为 Common, Common 是 Hadoop 
的 通用 工具 ,用 来 支持 其 他 的 Hadoop 模块 。 实际 上 Common 提供 了 一 系列 文件 系统 和 通 
用 1O 的 文件 包 , 这 些 文件 包 供 HDFS 和 MapReduce 公用 。 它 主要 包括 系统 配置 工具 、 远 
程 过 程 调用 、 序 列 化 机 制 和 抽象 文件 系统 等 。 它 们 为 在 廉价 的 硬件 上 搭建 去 计算 环境 提供 
基本 的 服务 ,并 且 为 运行 在 该 平台 上 的 软件 开发 提供 了 所 需 的 API。 其 他 Hadoop 模块 都 
是 在 Common 的 基础 上 发 展 起 来 的 。 




















4. Yarn 


Yarn 是 Apache 新 引入 的 子 模块 ,与 MapReduce 和 HDFS 并 列 。 由 于 在 老 的 框架 中 ， 
作业 跟踪 器 负责 分 配 计 算 任 务 并 跟踪 任务 进度 ,要 一 直 监控 作业 下 的 任务 的 运行 状况 ,承担 
的 任务 量 过 大 ,所 以 引入 Yarn 来 解决 这 个 问题 。Yarn 的 基本 设计 思想 是 将 MapReduce 中 
的 JobTracker 拆 分 成 了 两 个 独立 的 服务 : 一 个 全 局 的 资源 管理 器 和 每 个 应 用 程序 特有 的 ， 
其 中 资源 管理 器 负责 整个 系统 的 资源 管理 和 分 配 ,而 应 用 程序 管理 器 则 负责 单个 应 用 程序 


的 管理 。 
5. Hive 


Hive 最 早 是 由 Facebook 设计 ,基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 结构 化 的 数 
据 文件 映射 为 一 张 数 据 库 表 ,并 提供 类 SQL 查询 功能 。Hive 没有 专门 的 数据 存储 格式 ,也 
没有 为 数据 建立 索引 ,用 户 可 以 非常 自由 的 组 织 Hive 中 的 表 , 只 需要 在 创建 表 时 告知 Hive 
数据 中 的 列 分 隔 符 和 行 分 隔 符 , Hive 就 可 以 解析 数据 。Hive 中 所 有 的 数据 都 存储 在 


HDFS 中 ,其 本 质 是 将 SQL 转换 为 MapReduce 程序 完成 查询 。 


Hive 与 RDBMS( Rational DataBase Management System, 关 系数 据 库 管理 系统 ) 对 比 ， 


如 表 5-2 所 示 。 


表 5-2 Hive 5§ RDBMS 对 比 


























比较 名 称 Hive RDBMS 
查询 实时 性 差 实时 性 强 
计算 模型 MapReduce 自己 设计 
存储 文件 系统 HDFS 服务 器 本 地 
处 理 数据 规模 大 小 
索引 无 有 
6. HBase 


HBase E HadoopDatabase, 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 。HBase 不 同 于 一 
般 的 关系 数据 库 , 其 一 ,HBase 是 一 个 适合 于 存储 非 结构 化 数据 的 数据 库 ; 其 二 , HBase 是 
基于 列 而 不 是 基于 行 的 模式 。 用 户 将 数据 存储 在 一 个 表 里 , 一 个 数据 行 拥有 一 个 可 选择 的 
键 和 任意 数量 的 列 。 由 于 HBase 表示 玻 松 的 数据 .用 户 可 以 给 行 定 义 各 种 不 同 的 列 。 
HBase 主要 用 于 需要 随机 访问 、 实 时 读 写 的 大 数据 。 
HBase 与 Hive 的 相同 点 是 HBase 与 Hive 都 是 架构 在 Hadoop 之 上 的 ,都 用 Hadoop 
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作为 底层 存储 。 其 区 别 与 联系 ,如 表 5-3 所 示 。 
表 5-3 HBase 与 Hive 对 比 





























比较 名 称 HBase Hive 
用 途 弥补 Hadoop 的 实时 操作 减少 并 行 计算 编写 工作 的 批 处 理 系 统 
检索 方式 适用 于 索引 访问 适用 于 全 表 扫 描 
存储 物理 表 纯 逻 辑 表 
功能 HBase 只 负责 组 织 文件 。 Hive 既 要 存储 文件 又 需要 计算 框架 
执行 效率 HBase 执行 效率 高 Hive 执行 效率 低 

7. Avro 


Avro 由 Doug Cutting 牵头 开发 的 ,是 一 个 数据 序列 化 系统 。 类 似 于 其 他 序列 化 机 制 ， 
Avro 可 以 将 数据 结构 或 者 对 象 转换 成 便于 存储 和 传输 的 格式 ,其 设计 目标 是 用 于 支持 数据 
密集 型 应 用 ,适合 大 规模 数据 的 存储 与 交换 。Avro 提供 了 丰富 的 数据 结构 类 型 .快速 可 压 
缩 的 二 进 制 数据 格式 、 存 储 持久 性 数据 的 文件 集 、 远 程 调用 RPC 和 简单 动态 语言 集成 等 
功能 。 

8. Chukwa 

Chukwa 是 开源 的 数据 收集 系统 ,用 于 监控 和 分 析 大 型 分 布 式 系统 的 数据 。Chukwa 是 
在 Hadoop 的 HDFS 和 MapReduce 框架 之 上 搭建 的 , 它 同 时 继承 了 Hadoop 的 可 扩展 性 和 
健壮 性 。Chukwa 通过 HDFS 来 存储 数据 ,并 依赖 于 MapReduce 任务 处 理 数 据 。Chukwa 
中 也 附带 了 灵活 且 强 大 的 工具 ,用 于 显示 、 监 视 和 分 析 数 据 结 果 , 以 便 更 好 地 利用 所 收集 的 
数据 。 

9. Pig 

Pig 是 一 个 对 大 型 数据 集 进行 分 析 和 评估 的 平台 。Pig 最 突出 的 优势 是 它 的 结构 能 够 
经 受 住 高 度 并 行 化 的 检验 .这 个 特性 让 它 能 够 处 理 大 型 的 数据 集 。 目 前 ,Pig 的 底层 由 一 个 
编译 器 组 成 , 它 在 运行 的 时 候 会 产生 一 些 MapReduce 程序 序列 ,Pig 的 语言 层 由 一 种 叫做 
Pig Latin 的 正文 型 语言 组 成 。 


5.3 Hadoop 应 用 分 析 


Hadoop 采用 分 而 治之 的 计算 模型 ,以 对 海量 数据 排序 为 例 ,对 海量 数据 进行 排序 时 可 
以 参照 编程 快速 排序 法 的 思想 。 快 速 排序 法 的 基本 思想 是 在 数列 中 找 出 适当 的 轴 心 ,然后 
将 数列 一 分 为 二 .分别 对 左边 与 右边 数列 进行 排序 。 

1. 传统 的 数据 排序 方式 

传统 的 数据 排序 就 是 使 一 串 记 录 按 照 其 中 的 某 个 或 菜 些 关键 字 的 大 小 递增 或 递减 的 排 
列 起 来 的 操作 。 排 序 算法 是 如 何 使 得 记录 按照 要 求 排列 的 方法 ,排序 算法 在 很 多 领域 得 到 
相当 地 重视 ,尤其 是 在 大 量 数据 的 处 理 方面 。 一 个 优秀 的 算法 可 以 节省 大 量 的 资源 。 在 各 
个 领域 中 考虑 到 数据 的 各 种 限制 和 规范 ,要 得 到 一 个 符合 实际 的 优秀 算法 ,得 经 过 大 量 的 推 
理 和 分 析 。 
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下 面 以 快速 排序 为 例 .对 数据 集合 aCz) 从 小 到 大 的 排序 步骤 如 下 。 

(1) 首先 设 定 一 个 待 排序 的 元 素 alr). 

(2) 遍历 要 排序 的 数据 集合 a(n) ,经 过 一 轮 划 分 排序 后 在 aCz) 左 边 的 元 素 值 都 小 于 
CE a(Cz) 右 边 的 元 素 值 都 大 于 它 。 

G) 再 按 此 方法 对 a(z) 两 侧 的 这 两 部 分 数据 分 别 再 次 进行 快速 排序 ,整个 排序 过 程 可 
以 递归 进行 ,以 此 达到 整个 数据 集合 变 成 有 序 序列 。 

2. Hadoop 的 数据 排序 方式 

设想 如 果 将 数据 a(z) 分 割 成 M 个 部 分 ,将 这 M 个 部 分 送 去 MapReduce 进行 计算 , 自 
动 排序 ,最 后 输出 内 部 有 序 的 文件 ,再 把 这 些 文件 首尾 相连 合并 成 一 个 文件 , 即 可 完成 排序 ， 
操作 具体 步 又 如 表 5-4 所 示 。 


表 5-4 大 数据 排序 步骤 




















序号 步骤 名 称 具体 操作 
1 抽样 对 等 待 排序 的 海量 数据 进行 抽样 
2 设置 断 点 对 抽样 数据 进行 排序 ,产生 断 点 ,以 便 进行 数据 分 割 
3 Map 对 输入 的 数据 计算 所 处 断 点 位 置 并 将 数据 发 给 对 应 ID 的 Reduce 
4 Reduce Reduce 将 获得 的 数据 进行 输出 
本 章 小 结 


短 短 几 年 间 ,Hadoop 从 一 种 边缘 技术 成 为 事实 上 的 企业 大 数据 的 标准 ,Hadoop 几乎 
成 为 大 数据 的 代名词 。 作 为 一 种 用 于 存储 和 分 析 大 数据 开源 软件 平台 , Hadoop 可 处 理 分 
布 在 多 个 服务 器 中 的 数据 ,尤其 适合 处 理 来 自 手 机 、 电 子 邮件 、 社 交 媒 体 、 传 感 器 网 络 和 其 他 
不 同 渠 道 的 多 样 化 .大 负荷 的 数据 。 

本 章 对 Hadoop 的 起 源 、 功 能 与 优势 .应 用 现状 和 发 展 趋势 进行 了 简要 的 介绍 ,重点 讲 
解 了 Hadoop 的 各 个 功能 模块 。 通 过 本 章 的 学 习 , 读 者 将 会 打下 一 个 基本 的 Hadoop 理论 
基础 。 


习题 5 


一 、 填空 题 
1. Hadoop 是 Apache 软件 基金 会 旗下 的 一 个 

2. 截至 2016 年 初 ,Apache Hadoop 版 本 分 为 代 。 

3. HDFS 是 

4. Pig 是 

5. HBase 是 ° 

6. Avro 可 以 将 数据 结构 或 者 对 象 转换 成 便于 的 格式 ,其 设计 目标 是 用 于 支 
持 数 据 密集 型 应 用 ,适合 大 规模 数据 的 存储 与 交换 。 
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7. Chukwa 是 开源 的 ,用 于 监控 和 分 析 大 型 分 布 式 系统 的 数据 。 

8. Pig 的 底层 由 一 个 编译 器 组 成 , 它 在 运行 的 时 候 会 产生 一 些 程序 序列 。 

二 、 简 答题 


1. 简 述 Hadoop 第 一 代 和 第 二 代 的 区 别 。 
2. 以 表格 形式 阐述 HBase 与 Hive 的 异同 点 。 
3. 简 述 Hadoop 在 数据 处 理 方面 存在 的 问题 。 
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内 容 与 


本 章 介 绍 Hadoop 的 核心 模块 HDFS 和 Common, 它 们 承担 了 Hadoop 最 主要 的 
功能 和 任务 。 其 中 HDFS 提供 了 海量 数据 的 存储 ,Common 是 Hadoop 的 通用 工具 ， 
用 来 支持 其 他 的 Hadoop 模块 。 

“HDFS 简介 ”一 节 介 绍 HDFS 的 相关 概念 和 特点 ,要 求 掌握 HDFS 的 体系 结构 和 
工作 原理 ,了 解 HDFS 的 相关 技术 。 

“Common 简介 ”一 节 介 绍 Common 在 Hadoop 中 的 位 置 ,要 求 了 解 Common 的 功 
能 和 主要 工具 包 


重点 、 难 点 
本 章 重点 是 HDFS 的 体系 结构 和 工作 原理 ,难点 是 理解 HDFS 的 体系 结构 。 
HDFS 和 Common 是 Hadoop 的 核心 模块 ,承担 了 Hadoop 最 主要 的 功能 和 任务 。 其 
中 HDFS 提供 了 海量 数据 的 存储 ,Common 提供 了 一 系列 文件 系统 和 通用 1/0 的 文件 包 ， 
这 些 文件 包 供 HDFS 及 其 他 模块 共同 使 用 。 
6.1 HDFS 简介 


HDFS(Hadoop Distributed FileSystem, HDFS) 是 Hadoop 架构 下 的 分 布 式 文件 系统 。 
HDFS 是 Hadoop 的 一 个 核心 模块 ,负责 分 布 式 存储 和 管理 数据 ,具有 高 容错 性 、 高 吞吐 量 
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等 优点 ,并 提供 了 多 种 访问 模式 。HDFS 能 做 到 对 上 层 用 户 的 绝对 透明 ,使 用 者 不 需要 了 解 
内 部 结构 就 能 得 到 HDFS 提供 的 服务 ,并 且 HDFS 提供 了 一 系列 的 API, 可 以 让 开发 者 和 
研究 人 员 快速 地 编写 基于 HDFS 的 应 用 。 


6.1.1 HDFS 的 相关 概念 


由 于 HDFS 分 布 式 文件 系统 概念 相对 复杂 ,对 其 相关 概念 介绍 如 下 。 

Metadata 是 元 数据 ,元 数据 信息 包括 名 称 空间 文件 到 文件 块 的 映射 .文件 块 到 
DataNode 的 映射 三 部 分 。 

NameNode 是 HDFS 系统 中 的 管理 者 ,负责 管理 文件 系统 的 命名 空间 ,维护 文件 系统 
的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 在 一 个 Hadoop 集群 环境 中 ,一 般 只 有 一 个 
NameNode, 它 成 为 了 整个 HDFS 系统 的 关键 故障 点 ,对 整个 系统 的 运行 有 较 大 的 影响 。 

Secondary NameNode 是 以 备 NameNode 发 生 故 障 时 进行 数据 恢复 。 一 般 在 一 台 单独 
的 物理 计算 机 上 运行 ,与 NameNode 保持 通信 ,按照 一 定时 间 间 隔 保存 文件 系统 元 数据 的 
快照 。 

DataNode 是 HDFS 文件 系统 中 保存 数据 的 节点 。 根 据 需 要 存储 并 检索 数据 块 , 受 客 
户 端 或 NameNode 调度 ,并 定期 向 NameNode 发 送 它们 所 存储 的 块 的 列表 。 

Client 是 客户 端 ,HDFS 文件 系统 的 使 用 者 , 它 通 过 调用 HDFS 提供 的 API 对 系统 中 
的 文件 进行 读 写 操作 。 

块 是 HDFS 中 的 存储 单位 ,默认 为 64MB。 在 HDFS 中 文件 被 分 成 许多 一 定 大 小 的 分 
块 ,作为 单独 的 单元 存储 。 


6.1.2 HDFS 特性 


HDFS 被 设计 成 适合 运行 在 通用 硬件 (Commodity Hardware) 上 的 分 布 式 文件 系统 。 
它 是 一 个 高 度 容 错 性 的 系统 ,适合 部 署 在 廉价 的 机 器 上 .能 提供 高 否 吐 量 的 数据 访问 ,适合 
大 规模 数据 集 上 的 应 用 ,同时 放宽 了 一 部 分 POSIX (Portable Operating System Interface， 
可 移植 操作 系统 接口 ) 约 束 .实现 流 式 读 取 文 件 系 统 数据 的 目的 。HDFS 的 主要 特性 为 以 下 
几 点 。 

1. 高 效 硬件 响应 

HDFS 可 能 由 成 百 上 千 的 服务 器 所 构成 ,每 个 服务 器 上 都 存储 着 文件 系统 的 部 分 数据 。 
构成 系统 的 模块 数目 是 巨大 的 ,而 且 任 何 一 个 模块 都 有 可 能 失效 ,这 意味 着 总 是 有 一 部 分 
HDFS 的 模块 是 不 工作 的 ,因此 错误 检测 和 快速 .自动 的 恢复 是 HDFS 重要 特点 。 

2. 流 式 数据 访问 

运行 在 HDFS 上 的 应 用 和 普通 的 应 用 不 同 ,需要 流 式 访问 它们 的 数据 集 。 流 式 数据 的 
峙 点 是 像 流水 一 样 ,是 一 点 一 点 * 流 ?过 来 ,而 处 理 流 式 数 据 也 是 一 点 一 点 处 理 。 如 果 是 全 部 
收 到 数据 以 后 再 处 理 , 那 么 延迟 会 很 大 ,而 且 在 很 多 场合 会 消耗 大 量 内 存 。HDFS 的 设计 中 
更 多 地 考虑 到 了 数据 批 处 理 , 而 不 是 用 户 交互 处 理 。 较 之 数据 访问 的 低 延 迟 问 题 , 更 关键 在 
于 数据 访问 的 高 吞吐 量 。POSIX 标准 设置 的 很 多 硬性 约束 对 HDFS 应 用 系统 不 是 必需 的 。 
为 了 提高 数据 的 吞吐 量 , 在 一 些 关键 方面 对 POSIX 的 语义 做 了 一 些 修 改 。 
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3. 海量 数据 集 


运行 在 HDFS 上 的 应 用 具有 海量 数据 集 。HDFS 上 的 一 个 典型 文件 大 小 一 般 都 在 GB 
至 TB 级 别 。HDFS 能 提供 较 高 的 数据 传输 带宽 ,能 在 一 个 集群 里 扩展 到 数 百 个 节点 。 一 


个 单一 的 HDFS 实例 能 支撑 数 以 千 万 计 的 文件 。 
4. 简单 一 致 性 模型 


HDFS 应 用 采用 “一 次 写 人 多 次 读 取 ”的 文件 访问 模型 。 一 个 文件 经 过 创建 , 写 入 和 关 
闭 之 后 就 不 再 需要 改变 ,这 一 模型 简化 了 数据 一 致 性 的 问题 ,并 且 使 高 吞吐 量 的 数据 访问 成 


为 可 能 。MapReduce 应 用 和 网 络 怜 虫 应 用 都 遵循 该 模型 。 
5. 异 构 平 台 间 的 可 移植 性 


HDFS 在 设计 的 时 候 就 考虑 到 平台 的 可 移植 性 ,这 种 特性 方便 了 HDFS 作为 大 规模 数 


据 应 用 平台 的 推广 。 
需要 注意 的 是 ,HDFS 不 适用 于 以 下 应 用 。 





O) 低 延 迟 数据 访问 。 因 为 HDFS 关注 的 是 数据 的 吞吐 量 , 而 不 是 数据 的 访问 速度 ,所 





以 HDFS 不 适 月 











会 受到 NameNode 容量 的 限制 。 


(3) 多 用 户 写 人 修改 文件 。HDFS 中 的 文件 只 能 有 一 个 写 人 者 ,而 且 写 操作 总 是 在 文 
件 结尾 处 ,不 支持 多 个 写 人 者 ,也 不 支持 在 数据 写 人 后 ,在 文件 的 任意 位 置 进行 修改 。 


6.1.3 HDFS 体系 结构 


HDFS 采用 了 主 从 结构 构建 .NameNode 为 Master( 主 ) ,其 他 DataNode 为 Slave( 从 )， 
文件 以 数据 块 的 形式 存储 在 DataNode 中 。NameNode 和 DataNode 都 以 Java 程序 的 形式 
运行 在 普通 的 计算 机 上 ,操作 系统 一 般 采 用 Linux。 一 个 HDFS 分 布 式 文件 系统 的 架构 如 


图 6-1 所 示 。 


日 于 要 求 低 延迟 的 数据 访问 应 用 。 
(2) 大 量 小 文件 。HDFS 中 NameNode 负责 管理 元 数据 的 任务 , 当 文 件数 量 太 多 时 就 
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其 中 ， 

(1) ERO: NameNode 是 HDFS 系统 中 的 管理 者 ,对 Metadata 元 数据 进行 管理 。 负 
责 管 理 文件 系统 的 命名 空间 ,维护 文件 系统 的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 

(2) ERO: 当 NameNode 发 生 故障 时 ,使 用 Secondary NameNode 进行 数据 恢复 。 它 
一 般 在 一 台 单独 的 物理 计算 机 上 和 运行 ,与 NameNode 保持 通信 ,按照 一 定时 间 间 隔 保存 文 
件 系统 元 数据 的 快照 ,以 备 NameNode 发 生 故 障 时 进行 数据 恢复 。 

G) ERO: HDFS 中 的 文件 通常 被 分 割 为 多 个 数据 块 ,存储 在 多 个 DataNode 中 。 
DataNode 上 存 了 数据 块 ID 和 数据 块 内 容 ,以 及 它们 的 映射 关系 。 文 件 存储 在 多 个 
DataNode 中 ,但 DataNode 中 的 数据 块 未 必 都 被 使 用 (如 图 6-1 中 的 空白 块 ) 。 

(4) ERO: NameNode 中 保存 了 每 个 文件 与 数据 块 所 在 的 DataNode 的 对 应 关系 ,并 
管理 文件 系统 的 命名 空间 。DataNode 定期 向 NameNode 报告 其 存储 的 数据 块 列表 ,以 备 
使 用 者 直接 访问 DataNode 获得 相应 的 数据 。DataNode 还 周期 性 的 向 NameNode 发 送 心 
跳 信 号 ,提示 DataNode 是 否 工 作 正常 。DataNode 与 NameNode 还 要 进行 交互 ,对 文件 块 
的 创建 ,删除 ,复制 等 操作 进行 指挥 与 调度 ,只 有 在 交互 过 程 中 收 到 了 NameNode 的 命令 
后 , 才 开始 执行 指定 操作 。 

(5) 连 线 @: Client 是 HDFS 文件 系统 的 使 用 者 ,在 进行 读 写 操作 时 ,Client 需要 先 从 
NameNode 获得 文件 存储 的 元 数据 信息 。 

(6) ë # @ @: Client 从 NameNode 获得 文件 存储 的 元 数据 信息 后 ,与 相应 的 
DataNode 进行 数据 读 写 操作 。 

注释 : 心跳 信号 : 心跳 信号 是 每 隔 一 段 时 间 向 互联 的 另 一 方 发 送 一 个 很 小 的 数据 包 ， 
通过 对 方 回复 情况 判断 互联 的 双方 之 间 的 通信 和 链 路 是 否 已 经 断 开 的 方法 。 


6.1.4 HDFS 的 工作 原理 


下 面 以 一 个 文件 File A( 大 小 100MB) 为 例 , 说 明 HDFS 的 工作 原理 。 

1. HDFS 的 读 操作 

HDFS 的 读 操作 原理 较为 简单 , Client 要 从 DataNode 上 读 取 File A。 而 File A 由 
Blockl 和 Block2 组 成 ,其 流程 如 图 6-2 所 示 。 

图 6-2 中 , 左 侧 为 Client, 即 客户 端 。File A 分 成 两 块 , Blockl 和 Block2。 右 侧 为 
Switch, 即 交换 机 。HDFS 按 默 认 配置 将 文件 分 布 在 3 个 机 架 上 Rackl、Rack2 和 Rack3。 

过 程 步骤 如 下 。 

(1) Client 向 NameNode 发 送 读 请 求 (如 图 6-2 连 线 @)。 

(2) NameNode 查看 Metadata 信息 .返回 File A 的 Block 的 位 置 (如 图 6-2 ERO). 

Blockl 位 置 : host2.hostl .host3; Block2 位 置 : host7.host8.host4 。 

(3) Block 的 位 置 是 有 先后 顺序 的 . 先 读 Block1, 再 读 Block2 ,而且 Blockl 去 host2 上 
读 取 ; 然后 Block2 去 host7 上 读 取 。 

在 读 取 文件 过 程 中 ,DataNode 向 NameNode 报告 状态 。 每 个 DataNode 会 周期 性 地 向 
NameNode 发 送 心 跳 信 号 和 文件 块 状态 报告 .以便 NameNode 获取 到 工作 集群 中 DataNode 
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状态 的 全 局 视图 ,从 而 掌握 它们 的 状态 。 如 果 存 在 DataNode 失效 的 情况 时 ,NameNode 会 
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图 6-2 


HDFS 读 操 作 流程 


调度 其 他 DataNode 执行 失效 节点 上 文件 块 的 读 取 处 理 。 


2. HDFS 的 写 操作 


HDFS 中 Client 写 入 文件 File A 的 原理 流程 如 图 6-3 所 示 。 
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图 6-3 HDFS 写 操作 流程 
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(1) Client 将 File A 按 64MB 分 块 。 分 成 两 块 ,Block1 和 Block2。 

(2) Client 向 NameNode 发 送 写 数据 请 求 (如 图 6-3 连 线 〇 ) 。 

(3) NameNode 记录 着 Block 信息 ,并 返回 可 用 的 DataNode( 如 图 6-3 ERO). 

Blockl 位 置 : host2 .hostl ,host3 可 用 ; Block2 位 置 : host7,host8,host4 可 用 。 

(4) Client 向 DataNode 发 送 Blockl ,发 送 过 程 是 以 流 式 写 信 。 流 式 写 和 过程 如 下 。 

O 将 64MB 的 Blockl 按 64KB 大 小 划分 成 package. 

© Client 将 第 一 个 package 发 送 给 host2 。 

@ host2 接收 完 后 ,将 第 一 个 package 发 送 给 hostl; 同时 Client 向 host2 发 送 第 二 个 
package。 

@ hostl 接收 完 第 一 个 package 后 ,发 送 给 host3; 同时 接收 host2 发 来 的 第 二 个 
package。 

© 以 此 类 推 ,直到 将 Block1l 发 送 完毕 。 

© host2 .hostl .host3 向 NameNode,host2 向 Client 发 送 通知 ,说 明 消息 发 送 完 毕 。 

@ Client 收 到 host2 发 来 的 消息 后 ,向 NameNode 发 送 消息 ,说 明 写 操作 完成 。 这 样 就 
完成 Blockl 的 写 操作 。 

® 发 送 完 Blockl 后 ,再 向 host7 .host8 .host4 发 送 Block2 。 

@ 发 送 完 Block2 后 ,host7 .host8 ,host4 向 NameNode,host7 向 Client 发 送 通 知 。 

四 Client 向 NameNode 发 送 消息 ,说 明 写 操作 完成 。 

在 写 文件 过 程 中 ,每 个 DataNode 会 周期 性 地 向 NameNode 发 送 心 跳 信 号 和 文件 块 状 
态 报告 。 如 果 存 在 DataNode 失效 的 情况 时 ,NameNode 会 调度 其 他 DataNode 执行 失效 节 
点 上 文件 块 的 复制 处 理 ,保证 文件 块 的 副本 数 达 到 规定 数量 。 


6.1.5 HDFS 的 相关 技术 


在 HDFS 分 布 式 存储 和 管理 数据 的 过 程 中 ,为 了 保证 数据 的 可 靠 性 、 安 全 性 ,高 容错 性 
等 特点 采用 了 以 下 技术 。 

1. 文件 命名 空间 

HDFS 使 用 的 系统 结构 是 传统 的 层次 结构 。 但 是 ,在 做 好 相应 的 配置 后 ,对 于 上 层 应 用 
来 说 ,就 几乎 可 以 当成 是 普通 文件 系统 来 看 待 .忽略 HDFS 的 底层 实现 。 

上 层 应 用 可 以 创建 文件 夹 , 可 以 在 文件 夹 中 放置 文 件 ; 可 以 创建 ,删除 文件 ; 可 以 移动 
文件 到 另 一 个 文件 夹 中 ; 可 以 重 命名 文件 。 但 是 ,HDFS 还 有 一 些 常 用 功能 尚未 实现 ,例如 
硬 链接 、 软 链接 等 功能 。 这 种 层次 目录 结构 跟 其 他 大 多 数 文件 系统 类 似 。 

2. 权限 管理 

HDFS 支持 文件 权限 控制 ,但 是 目前 的 支持 相对 不 足 。HDFS 采用 了 UNIX 权限 码 的 
模式 来 表示 权限 ,每 个 文件 或 目录 都 关联 着 一 个 所 有 者 用 户 和 用 户 组 以 及 对 应 的 权限 码 
rwx(read、 write、execute)。 每 次 文件 或 目录 操作 ,客户 端 都 要 把 完整 的 文件 名 传 给 
NameNode, 每 次 都 要 对 这 个 路 径 的 操作 权限 进行 判断 。HDFS 的 实现 与 POSIX 标准 类 
似 ,但 是 HDFS 没有 严格 遵守 POSIX 标准 。 
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3. 元 数据 管理 

NameNode 是 HDFS 的 元 数据 计算 机 ,在 其 内 存 中 保存 着 整个 分 布 式 文件 系统 的 两 类 
元 数据 : 一 是 文件 系统 的 命名 空间 , 即 系统 目录 树 ; 二 是 数据 块 副本 与 DataNode 的 映射 ， 
即 副本 的 位 置 。 

对 于 上 述 第 1 类 元 数据 , NameNode 会 定期 持久 化 ,第 2 类 元 数据 则 靠 DataNode 
BlockReport 获得 。 

NameNode 把 每 次 对 文件 系统 的 修改 作为 一 条 日 志 添 加 到 操作 系统 本 地 文件 中 。 比 
如 ,创建 文件 ,修改 文件 的 副本 因子 都 会 使 得 NameNode 向 编辑 日 志 添 加 相应 的 操作 记录 。 
当 NameNode 启动 时 ,首先 从 镜像 文件 fsimage 中 读 取 HDFS 所 有 文件 目录 元 数据 加 载 到 
内 存 中 ,然后 把 编辑 日 志文 件 中 的 修改 日 志 加 载 并 应 用 到 元 数据 ,这 样 启动 后 的 元 数据 是 最 
新 版 本 的 。 之 后 ,NameNode 再 把 合并 后 的 元 数据 写 回 到 fsimage, 新 建 一 个 空 编辑 日 志文 
件 以 写 入 修改 日 志 。 

由 于 NameNode 只 在 启动 时 才 合 并 fsimage 和 编辑 日 志 两 个 文件 ,这 将 导致 编辑 日 志 
文件 可 能 会 很 大 ,并 且 和 运行 得 越久 就 越 大 ,下 次 启动 时 合并 操作 所 需要 的 时 间 就 越久 。 为 了 
解决 这 一 问题 ,Hadoop 引入 Secondary NameNode 机 制 ,Secondary NameNode 可 以 随时 替 
换 为 NameNode, 让 集群 继续 工作 。 

4. 单 点 故障 问题 

HDFS 的 主 从 式 结构 极 大 地 简化 了 系统 体系 结构 ,降低 了 设计 的 复杂 度 ,用 户 的 数据 也 
不 会 经 过 NameNode。 但 是 问题 也 是 显而易见 的 ,单一 的 NameNode 节点 容易 导致 单 点 故 
障 问题 。 一 旦 NameNode 失效 ,将 导致 整个 HDFS 集群 无 法 正常 工作 。 此 外 ,由 于 Hadoop 
平台 的 其 他 框架 如 MapReduce、HBase、Hive 等 都 是 依赖 于 HDFS 的 基础 服务 ,因此 HDFS 
失效 将 对 整个 上 层 分 布 式 应 用 造成 严重 影响 。Secondary NameNode 可 以 部 分 解决 这 个 问 
题 ,但 是 需要 切换 IP, 手 动 执行 相关 切换 命令 ,而 且 NameNode 的 数据 不 一 定 是 最 新 的 , 存 
在 一 致 性 问题 ,不 适合 做 NameNode 的 备用 机 。 除 了 Secondary NameNode, 其 他 相对 成 熟 
的 解决 方案 还 有 Backup Node 方案 .DRDB 方案 、AvatarNode 方案 。 

5. 数据 副本 

HDFS 是 用 来 为 大 数据 提供 可 靠 存储 的 ,这 些 应 用 所 处 理 的 数据 一 般 保 存在 大 文件 中 。 
HDFS 存储 文件 时 会 将 文件 分 成 若干 个 块 ,每 个 块 又 会 按照 文件 的 副本 因子 进行 备份 。 

同 副本 因子 一 样 , 块 的 大 小 也 是 可 以 配置 的 ,并 且 在 创建 后 也 能 修改 。 习 惯 上 会 设置 成 
64MB 或 128MB 或 256MB( 上 默认 是 64MB) ,但 是 块 大 小 既 不 能 太 小 也 不 能 太 大 。 

6. 通信 协议 

HDFS 是 应 用 层 的 分 布 式 文件 系统 ,节点 之 间 的 通信 协议 都 是 建立 在 TCP/IP 协议 之 
上 的 。HDFS 有 3 个 重要 的 通信 协议 , 即 Client Protocol, Client DataNodeProtocol 和 
DataNode Protocol, 

7. 容错 

HDFS 的 设计 目标 之 一 是 具有 高 容错 性 。 集 群 中 的 故障 主要 有 Node Server 故障 、 网 
络 故 障 和 脏 数 据 问 题 三 类 。 


第 6 章 HDFS 和 Common 概 论 





(1) Node Server 故障 又 包括 NameNode 故障 和 DataNode 故障 。Secondary NameNode 可 
以 随时 替换 为 NameNode. 让 集群 继续 工作 。NameNode 会 通过 心跳 检测 判断 DataNode 是 
否 发 生 故 障 。 

(2) 对 于 网 络 故障 ,HDFS 采用 了 与 TCP 协议 类 似 的 处 理 方式 : ACK 报 文 , 即 每 次 接 
收 方 收 到 数据 后 都 会 向 发 送 方 返回 一 个 ACK 报 文 ,如 果 没 收 到 ACK 报 文 就 认为 接收 方 发 
生 故 障 或 者 网 络 出 现 故 障 。 

G) 由 于 HDFS 的 硬件 配置 都 是 比较 廉价 的 ,数据 容易 出 错 。 为 了 防止 脏 数据 问 题 ， 
HDFS 的 数据 都 配 有 校 验 数据 。 每 隔 一 定时 间 ,DataNode 会 向 NameNode 发 送 BlockReport 以 
报告 自己 的 块 信息 ,NameNode 收 到 BlockReport 后 ,如 果 发 现 某 个 DataNode 没有 上 报 被 
认为 是 存储 在 该 DataNode 的 块 信息 ,就 认为 该 DataNode 的 这 个 块 是 脏 数 据 。 

8. Hadoop Metrics 插件 

Hadoop Metrics 插件 是 基于 JMX(Java Management Extensions, 即 Java 管理 扩展 ) 实 
现 的 一 个 统计 集群 运行 数据 的 工具 ,能 让 用 户 在 不 重启 集群 的 情况 下 重新 进行 配置 。 从 
Hadoop 0. 20 开始 metrics 功能 就 默认 启用 了 ,目前 使 用 的 都 是 Hadoop Metrics 2, 





6.2 Common 简介 


Common 为 Hadoop 的 其 他 模块 提供 了 一 系列 文件 系统 和 通用 文件 包 , 主 要 包括 系统 
配置 工具 Configuration, 远程 过 程 调用 RPC、 序 列 化 机 制 和 Hadoop 抽象 文件 系统 
FileSystem 等 。 从 Hadoop 0. 20 版 本 开始 ,Hadoop Core 模块 更 名 为 Common。Common 
为 在 通用 硬件 上 搭建 云 计算 环境 提供 基本 的 服务 ,同时 为 软件 开发 提供 了 API。 

Common 模块 结构 如 图 6-4 所 示 。 








|Ë Package Explorer 2 | Er | sea: o= 
a 配 hadoop-10 
4 BB src/core 
b |ËB org.apache.hadoop 
b E org.apache.hadoop.classification 
b B org.apache.hadoop.conf 
ËB org.apachehadoopfilecache 

b ñB org.apache.hadoop.fs 
b ÉB org.apache.hadoop.fs.ftp 
b B org.apache.hadoop.fs.kfs 
p BË org.apache.hadoop.fs.permission 
b ÉB org.apache.hadoop.fs.s3 
b BB org.apache.hadoop.fs.s3native 
b E org.apache.hadoop.fs.shell 
b B org.apache.hadoop.http 
b BB org.apache.hadoop.http.lib 
b BB orgapachehadoopjo 








图 6-4 Common 模块 结构 


75 








大 数据 技术 与 应 
.. —— —— 














下 面 介绍 Common 模块 中 的 主要 程序 包 。 

1. org. apache. hadoop. conf 

该 包 的 作用 是 读 取 集 群 的 配置 信息 ,很 多 配置 的 数据 都 需要 从 org. apache. hadoop. 
conf 中 去 读 取 。Configuration 是 org. apache. hadoop. conf 包 中 的 主 类 ,Configuration 类 中 
包含 了 10 个 属性 。Hadoop 开放 了 许多 的 get/ set 方法 来 获取 和 设置 其 中 的 属性 。 

2. org. apache. hadoop. fs 


该 包 主要 包括 了 对 文件 系统 的 维护 操作 的 抽象 ,包括 文件 的 存储 和 管理 ,主要 包含 下 面 


的 子 包 。 


(1) org. apache. hadoop. fs. ftp 提供 了 在 HTTP 协议 上 对 于 Hadoop 文件 系统 的 


访问 。 


(2) org. apache. hadoop. fs. kfs 包含 了 对 KFS 的 基本 操作 。 

(3) org. apache. hadoop. fs. permission 可 以 对 访问 控制 .权限 进行 设置 。 

(4) org. apache. hadoop. Ís. s3 和 org. apache. hadoop. fs. s3native 包 , 这 两 个 包 中 定义 
了 对 as3 文件 系统 的 支持 。 

3. org. apache. hadoop. io 

该 包 实 现 了 一 个 特有 的 序列 化 系统 。Hadoop 的 序列 化 机 制 具 有 快速 、 紧 凑 的 特点 。 
Hadoop 在 IVO 中 的 解压 缩 设 计 中 通过 JNI(Java Native Interface,Java 本 地 接口 ) 的 形式 调 
用 第 三 方 的 压缩 算法 ,如 Google 的 Snappy 框架 。 

4. org. apache, hadoop. ipc 

该 包 用 于 Hadoop 远程 过 程 调用 的 实现 。Java 的 RPC 最 直接 的 体现 就 是 RMI 的 实 
H, RMI 的 实现 是 一 个 简陋 版 本 的 远程 过 程 调用 ,但 是 由 于 RMI 的 不 可 定制 性 ,所 以 
Hadoop 根据 自己 系统 特点 .重新 设计 了 一 套 独 有 的 RPC 体系 ,用 了 Java 动态 代理 的 思想 ， 
RPC 的 服务 端 和 客户 端 都 是 通过 代理 获得 方式 取得 。 

其 他 包 简 单 描述 如 下 。 


(1) org 


(2) org. 
(3) org. 
(4) org. 
(5) org. 
(6) org. 


. apache. hadoop. 


本 章 小 结 


apache. hadoop. 
apache. hadoop. 
apache. hadoop. 
apache. hadoop. 
apache. hadoop. 


hdfs 是 Hadoop 的 分 布 式 文件 系统 实现 。 

mapreduce 是 Hadoop 的 MapReduce 实现 。 

log 是 Hadoop 的 日 志 帮 助 类 ,实现 估 值 的 检测 和 恢复 。 
metrics 用 于 度量 统计 和 分 析 。 

http 和 org. apache. hadoop. net 用 于 对 网 络 相 关 的 封装 。 
util 是 Common 中 的 公共 方法 类 。 


作为 Hadoop 最 重要 的 组 成 模块 ,HDFS 和 Common 在 大 数据 处 理 过 程 中 作用 巨大 。 
简单 地 说 ,在 Hadoop 平台 下 , HDFS 负责 存储 .Common 负责 提供 Hadoop 各 个 模块 常用 
的 工具 程序 包 。 
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本 章 重点 讲解 了 HDFS 的 特点 、 体 系 结构 、 工 作 原理 .介绍 了 HDFS 的 相关 技术 ,最 后 
简单 介绍 了 Common 的 相关 知识 。 通 过 本 章 的 学 习 . 将 会 了 解 HDFS 和 Common 的 理论 


基础 。 
习题 6 


一 、 填空 题 
. HDFS 和 Common 是 


. HDFS 是 Hadoop 构架 下 的 


1 
2 
3. HDFS 负责 分 布 式 地 
4 





的 核心 模块 。 





,同时 也 是 GFS 的 开源 实现 。 











和 管理 数据 。 

.HDFS 提供 了 一 系列 的 ,拥有 让 开发 者 和 研究 人 员 快 速 编写 基于 HDFS 的 
应 用 。 

5. Æ HDFS 系统 中 的 管理 者 ,负责 管理 文件 系统 的 命名 空间 ,维护 文件 系统 
的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 

6. 以 备 NameNode 发 生 故 障 时 进行 数据 恢复 。 

7; 是 HDFS 文件 系统 中 保存 数据 的 节点 。 

8. HDFS 采用 了 结构 构建 。 

9. HDFS 采用 了 主 从 结构 构建 ， 为 主 ,其 他 DataNode 为 从 。 

10. 从 Hadoop 0. 20 版 本 开始 ,Hadoop Core 模块 更 名 为 N 


二 、 简 答题 


1. 简 述 Metadata、NameNode、Secondary NameNode、DataNode、Client, 块 的 概念 。 


2. 简 述 HDFS 特点 。 


3. 简 述 HDFS 架构 图 (如 图 6-5 所 示 )。 
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图 6-5 HDFS 架构 图 
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4. 简 述 HDFS 读 操作 工作 原理 (如 图 6-6 所 示 ) 。 
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图 6-6 HDFS 读 操作 工作 原理 图 


5. 简 述 HDFS 写 操作 工作 原理 (如 图 6-7 所 示 )。 
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图 6-7 HDFS 写 操作 工作 原理 图 
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内 容 与 要 求 

MapReduce 是 一 个 最 先 由 Google 公司 开发 的 分 布 式 计算 框架 , 它 可 以 支持 大 数 
据 的 分 布 式 处 理 。MapReduce 是 Hadoop 的 核心 模块 ,承担 了 Hadoop 的 数据 计算 
功能 。 

“MapReduce 简介 ”一 节 主 要 讲解 MapReduce 的 功能 ,技术 特征 和 局 限 。 

“Map 和 Reduce 任务 "一 节 主 要 讲解 Map( 映 射 ) 与 Reduce( 化 简 ) 的 原理 和 流程 。 

“MapReduce 的 架构 和 工作 流程 ”一 节 主 要 讲解 MapReduce 的 架构 组 成 和 10 个 
工作 步骤 。 


本 章 重点 是 Map 和 Reduce 的 原理 和 流程 ,难点 是 MapReduce 的 功能 、 技 术 特 征 、 
架构 和 工作 流程 。 


与 传统 数据 仓库 和 分 析 技 术 相 比 .MapReduce 适合 处 理 各 种 类 型 的 数据 ,包括 结构 化 
半 结 构 化 和 非 结构 化 数据 。HDFS 在 MapReduce 任务 处 理 过 程 中 提供 了 对 文件 操作 和 存 
储 的 支持 ,MapReduce 在 HDFS 的 基础 上 实现 任务 的 分 发 .跟踪 、 执 行 .计算 等 工作 ,并 收集 
结果 。 
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7.1 MapReduce 简介 


大 数据 来 源 非常 广泛 ,其 数据 格式 多 样 ,如 多 媒体 数据 、 图 像 数 据 、 文 本 数据 、 实 时 数据 、 
传感器 数据 等 ,传统 行列 结构 的 数据 库 结构 已 经 不 能 满足 数据 处 理 的 需求 ,而 MapReduce 
可 以 存放 和 分 析 各 种 原始 数据 格式 。 


7.1.1 MapReduce 


MapReduce 是 面向 大 数据 并 行 处 理 的 计算 模型 .框架 和 平台 。 它 隐 含 了 以 下 三 层 
含义 。 

(1) MapReduce 是 一 个 基于 集群 的 高 性 能 并 行 计算 平台 。 它 允许 用 普通 的 商用 服务 器 
构成 一 个 包含 数 十 、 数 百 至 数 千 个 节点 的 分 布 和 并 行 计算 集群 。 

(2) MapReduce 是 一 个 并 行 计算 与 运行 软件 框架 。 它 提供 了 一 个 庞大 但 设计 精良 的 并 
行 计算 软件 框架 ,能 自动 完成 计算 任务 的 并 行 化 处 理 , 自 动 划 分 计算 数据 和 计算 任务 ,在 集 
群 节点 上 自动 分 配 和 执行 任务 以 及 收集 计算 结果 ,将 数据 分 布 存 储 、 数 据 通信 ,容错 处 理 等 
并 行 计算 涉及 到 的 很 多 系统 底层 的 复杂 细节 交 由 系统 负责 处 理 。 

(3) MapReduce 是 一 个 并 行程 序 设 计 模 型 与 方法 。 它 借助 于 函数 式 程序 设计 语言 
Lisp 的 设计 思想 ,提供 了 一 种 简便 的 并 行程 序 设计 方法 ,用 Map 和 Reduce 两 个 函数 编程 实 
现 基 本 的 并 行 计算 任务 ,提供 了 抽象 的 操作 和 并 行 编程 接口 ,以 简单 方便 地 完成 大 规模 数据 
的 编程 和 计算 处 理 。 

下 面 ,利用 MapReduce 解决 一 个 有 趣 的 扑克 牌 问题 , 即 * 统 计 54 张 扑克 牌 中 有 多 少 张 
命 ?”, 如 图 7-1 所 示 。 








图 7-1 54 张 扑克 有 牌 中 有 和 多少 张 多 


最 直观 的 做 法 : 自己 从 54 张 扑 克 牌 中 一 张 一 张 地 检查 并 数 出 13 KA 。 

而 MapReduce 的 做 法 及 步骤 如 下 。 

(1) 给 在 座 的 所 有 牌 友 (比如 4 个 人 ) 尽 可 能 地 平均 分 配 这 54 张 牌 。 

(2) 让 每 个 牌 友 数 自己 手中 的 牌 有 几 张 是 对 ,比如 老 张 是 3 张 , 老 李 是 5 张 , 老 王 是 1 
张 , 老 蒋 是 4 张 ,然后 每 个 牌 友 把 今 的 数目 分 别 汇报 给 发 牌 人 。 

(3) 发 牧人 把 所 有 有 牌 友 的 含 数目 加 起 来 ,得 到 最 后 的 结论 为 仿 一 共 13 张 。 
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这 个 例子 告诉 我 们 ,MapReduce 的 两 个 主要 功能 是 Map 和 Reduce。 

e Map: 把 统计 镶 数 目的 任务 分 配给 每 个 牌 友 分 别 计数 。 

。 Reduce; 每 个 牌 友 不 需要 把 旬 牌 递 给 发 牌 人 ,而 是 让 他 们 把 各 自 的 银 数目 告诉 发 

牌 人 。 

我 们 还 可 以 将 问题 细 化 。 

D 把 牌 分 给 多 个 牌 友 并 且 让 他 们 同时 各 自 计 数 ,这 就 是 并 行 计 算 。 多 个 牌 友 在 计数 
全 的 过 程 中 并 不 需要 知道 其 他 的 牌 友 在 干什么 .这 就 是 分 布 式 计算 。 

(2) MapReduce 假设 扑克 牌 是 洗 过 的 (Shuffled), 且 扑克 牌 分 配 得 尽量 均匀 。 如 果 所 
有 侈 都 分 到 了 一 个 玩家 手 上 , 则 该 玩家 数 牌 的 过 程 可 能 比 其 他 人 要 慢 很 多 。 

(3) 如 果 牌 友 足 够 多 的 话 ,MapReduce 还 能 够 解决 更 有 趣 的 问题 ,比如 “54 张 扑 克 牌 的 
平均 值 是 什么 (大 、 小 王 分 别 算 0)?”MapReduce 可 以 提炼 成 "所 有 扑克 牌 牌 面 的 数值 的 和 ” 
及 “一 共有 多 少 张 扑 克 牌 "这 两 个 问题 来 解决 。 显 然 ,用 牌 面 的 数值 的 和 除 以 扑克 牌 的 张 数 
就 得 到 了 平均 值 。 

MapReduce 的 工作 机 制 远 比 本 节 所 举 的 小 例子 复杂 得 多 ,但 是 基本 思想 是 类 似 的 , 即 
通过 分 散 计算 来 分 析 海 量 数据 。 


7.1.2 MapReduce 功能 .特征 和 局 限 性 


MapReduce 为 程序 员 提供 了 一 个 抽象 的 、 高 层 的 编程 接口 和 框架 ,程序 员 仅 需 要 关心 
其 应 用 层 的 具体 计算 问题 , 仅 需 编 写 少 量 的 程序 代码 即 可 。 

1. MapReduce 功能 

MapReduce 功能 是 采用 分 而 治之 的 思想 ,把 对 大 规模 数据 集 的 操作 分 发 给 一 个 主 节点 
管理 下 的 各 个 分 节点 共同 完成 ,然后 通过 整合 各 个 节点 的 中 间 结 果 , 得 到 最 终结 果 。 

MapReduce 实现 了 两 个 功能 ,Map 把 一 个 函数 应 用 于 集合 中 的 所 有 成 员 , 然 后 返回 一 
个 基于 这 个 处 理 的 结果 集 ; Reduce 是 对 多 个 进程 或 者 独立 系统 并 行 执行 ,将 多 个 Map 的 处 
理 结果 集 进 行 分 类 和 归纳 。MapReduce 易于 实现 且 扩 展 性 强 ,可 以 通过 它 编写 出 同时 在 多 
台 主 机 上 运行 的 程序 。 

以 图 形 归 类 为 例 , 其 功能 示意 图 如 图 7-2 所 示 , 实 现 步 又 如 下 。 
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图 7-2 MapReduce 功能 示意 图 




































































81 














大 数据 技术 与 应 
~ 


(1) 首先 使 用 Map 对 输入 的 数据 集 进 行 分 片 ,如 将 一 个 交 和 一 个 @ 分 成 一 个 数据 片 ,将 
个 次 一 个 人 和 一 个 〇 分 成 一 个 数据 片 等 。 
(2) 然后 将 各 种 图 形 进 行 归纳 整理 ,如 把 两 个 交 归 成 一 类 ,三 个 〇 归 成 一 类 等 进行 输 
出 ,并 将 输出 结果 作为 Reduce 的 输入 。 
(3) 最 后 由 Reduce 进行 聚集 并 输出 各 个 图 形 的 个 数 , 如 交 有 2 个 .人 有 4 个 等 。 
2. MapReduce 特征 


目前 MapReduce 可 以 进行 数据 划分 .计算 任务 调度 .系统 优化 及 出 错 检测 和 恢复 等 操 
作 , 在 设计 上 具有 以 下 三 方面 的 特征 。 

1) 易于 使 用 

通过 MapReduce 这 个 分 布 式 处 理 框架 ,不 仅 能 用 于 处 理 大 规模 数据 ,而 且 能 将 很 多 烦 
琐 的 细节 隐藏 起 来 。 传 统 编程 时 程序 员 需 要 经 过 长 期 培训 来 熟悉 大 量 编程 细节 ,而 
MapReduce 将 程序 员 与 系统 层 细节 隔离 开 来 ,即使 是 对 于 完全 没有 接触 过 分 布 式 程序 的 程 
序 员 来 说 也 能 很 容易 的 掌握 。 

2) 良好 的 伸缩 性 

MapReduce 的 伸缩 性 非常 好 ,每 增加 一 台 服 务 器 ,就 能 将 该 服务 器 的 计算 能 力 接 入 到 
集群 中 ,并 且 MapReduce 集群 的 构建 大 多 选用 价格 便宜 .易于 扩展 的 低 端 商用 服务 器 ,基于 
大 量 数据 存储 需要 , 低 端 服务 器 的 集群 远 比 基于 高 端 服 务 器 的 集群 优越 。 

3) 适合 大 规模 数据 处 理 

MapReduce 可 以 进行 大 规模 数据 处 理 , 应 用 程序 可 以 通过 MapReduce 在 超过 1000 个 
以 上 节点 的 大 型 集群 上 运行 。 

3. MapReduce 的 局 限 性 

MapReduce 在 最 初 推出 的 几 年 ,获得 了 众多 的 成 功 案例 ,获得 业界 广泛 的 支持 和 肯定 ， 
但 随 着 分 布 式 系统 集群 的 规模 和 其 工作 负荷 的 增长 , MapReduce 存在 的 问题 逐渐 地 浮 出 水 
面 ,总 结 如 下 (其 中 的 术语 参见 7.2 节 )。 

(1) Jobtracker( 作 业 跟 踪 器 ) 是 Mapreduce 的 集中 处 理 点 ,存在 单 点 故障 。 

(2) Jobtracker 完成 了 太 多 的 任务 ,造成 了 过 多 的 资源 消耗 , 当 Job 非常 多 的 时 候 , 会 造 
成 很 大 的 内 存 开销 ,增加 了 Jobtracker 失败 的 风险 ,旧版 本 的 MapReduce 只 能 支持 上 限 为 
4000 节点 的 主机 。 

(3) 在 Tasktracker( 任 务 跟踪 器 ) 端 ,以 Map/Reduce Task 的 数目 作为 资源 的 表示 过 于 
简单 ,没有 考虑 到 CPU 内 存 的 占用 情况 ,如 果 两 个 大 内 存 消耗 的 Task 被 调度 到 了 一 块 ,很 

(4) 在 Tasktracker 端 ,把 资源 强制 划分 为 Map Task( 映 射 任务 ) 和 Reduce Task( 化 
简 任 务 ) ,如 果 当 系统 中 只 有 Map Task 或 者 只 有 Reduce Task 的 时 候 , 会 造成 资源 的 
浪费 。 

(5) 源 代码 层面 分 析 的 时 候 , 会 发 现代 码 非常 的 难 读 ,常常 因为 一 个 类 (Class) 做 了 太 
多 的 事情 ,代码 量 达 3000 多 行 ,造成 类 的 任务 不 清晰 ,增加 缺陷 (Bug) 修 复 和 版 本 维护 的 

(6) 从 操作 的 角度 来 看 , MapReduce 在 诸如 缺陷 修复 .性 能 提升 和 特性 化 等 并 不 重要 的 
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系统 更 新 时 ,都 会 强制 进行 系统 级 别 的 升级 。 更 糟糕 的 是 ,MapReduce 不 考虑 用 户 的 喜好 ， 
强制 让 分 布 式 集群 中 的 每 一 个 Client 同时 更 新 。 


7.2 Map 和 Reduce 任务 


Map 是 一 个 映射 函数 ,该 函数 可 以 对 列表 中 的 每 一 个 元 素 进行 指定 的 操作 。 

Reduce 是 一 个 化 简 函 数 , 该 函数 可 以 对 列表 中 的 元 素 进行 适当 的 合并 、 归 约 。 

Map 和 Reduce 是 MapReduce 的 主要 工作 思想 ,用 户 只 需要 实现 Map 和 Reduce 两 个 
接口 , 即 可 完成 TB 级 数据 的 计算 。 

Map 和 Reduce 的 工作 流程 如 图 7-3 所 示 。 





Input | File 


1 1 I i | 


Shuffle | Combine,Partition, Sort, Copy, Merge 


图 7-3 Map 和 Reduce 的 工作 流程 


将 Map 和 Reduce 的 工作 流程 及 步骤 简单 概括 如 下 。 

(1) 输入 数据 通过 Split? 的 方式 ,被 分 发 到 各 个 节点 上 。 

(2) 每 个 Map 任务 在 一 个 Split 上 面 进行 处 理 。 

(3) Map 任务 输出 中 间 数 据 。 

(4) 在 Shuffle@ 过 程 中 ,节点 之 间 进 行 数据 交换 。 

(5) 拥有 同样 Key 值 的 中 间 数 据 即 键 值 对 9(Key-Value Pair) 被 送 到 同样 的 Reduce 任 
gp., 

(6) Reduce 执行 任务 后 ,输出 结果 。 

提示 : 前 4 步 为 Map 过程, 后 2 步 为 Reduce 过 程 。 

下 面 ,以 求 东 三 省 2016 年 5 月 16 日 14: 00 每 个 省 份 的 平均 气温 为 例 ( 为 使 问题 简化 ， 





























O Split 意 为 分 片 ,是 Map 任务 最 小 的 输入 单位 。 分 片 是 基于 文件 基础 上 衍生 出 来 的 概念 ,可 通俗 地 理解 成 一 个 文 
件 可 以 切 分 为 多 少 个 片段 ,每 个 片段 包括 了 < 文件 名 ,开始 位 置 ,长 度 ,位 于 哪些 主机 > 等 信息 。 

© Shuffle 意 为 洗 牌 ,一 般 包含 本 地 化 混合 .分 区 排序、 复制 及 合并 等 。 

@” 键 值 对 是 指 Key 和 Value 之 间 的 映射 关系 ,一 个 Key 值 对 应 一 个 Value, 其 中 Value 的 类 型 和 取 值 范围 等 都 是 
任意 的 。 
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每 个 省 只 列举 3 个 城市 ) ,对 Map 任务 和 Reduce 任务 进行 形象 的 阐述 。 
(1) 在 Map 阶段 输入 < Key, Value > 数据 ,其 中 Key 为 城市 的 名 称 , Value 为 所 属 省 份 ， 


城市 平均 气温 ,如 图 7-4 所 示 。 


`x J Map mput : <K1, VI> 


Key: 哈尔滨 
Value: 黑龙 江 , 10°C 








Key: 佳木斯 
Value: 黑龙 江 ,9°C)) 
























Key: 长 春 》 

了 | Value: 吉林 ,16 "Cj 一 
KE 
. 


` 


Key: 沈阳 
元 s” Value 辽宁 , 22°C 


poi 














图 7-4 Map A 


(2) Map 按 省 份 将 气温 重新 分 组 输出 (排除 城市 名 称 ) ,那么 省 份 作 为 Key 时 ,气温 将 
作为 Value, 如 图 7-5 所 示 。 


\ | MapOutput: <K2, V2> 
; Ke 龙 江 PPA 
< Value; 10 加 





Key: 吉林 
Value: 14C, 








mwa 


图 7-5 Map 输出 
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(3) 使 用 Map 的 Shuffle 功能 ,分 组 输出 省 份 Key, 并 得 到 该 省 的 气温 列表 List < Value >, 
如 图 7-6 所 示 。 





< 


co 







图 7-6 Shuffle 输出 
(4) 将 从 Shuffle 任务 中 获得 的 Key, List < Value > 数据 作为 Reduce 任务 的 输入 数据 ， 


如 图 7-7 所 示 。 
í 
y 







a : 
a ) : 2 
7 rA 
Í Ñ 
T. ayy, C, 9C, 12°C> 
w; 


As 


r £ = OB List<16'C, 14°C, 15% 
AN 
Etena 


Value: List<22°C, 26°C 





















图 7-7 Reduce {f À 
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(5) Reduce 任务 是 数据 逻辑 的 完成 者 ,在 这 里 就 是 计算 各 省 份 的 平均 温度 ,如 图 7-8 


所 示 。 





zal Reduce Output : <K3, V3> 











Fean 


OFiR 
ma mat Iman 


natin $ 


图 7-8 Reduce 输出 


综 上 所 述 ,MapReduce 对 数据 的 重 塑 过 程 如 下 。 

(1) Map 输入 < K1,V1 >>Map 输出 < K2,V2 >, 

(2) Shuffle 输出 < K2.,ListV2 >, 

(3) Reduce # A< K2,List < V2 >>—>Reduce 输出 <K3.V3 >, 


7.3 MapReduce 架构 和 工作 流程 


7.3.1 MapReduce 的 架构 


MapReduce 的 架构 是 MapReduce 整体 结构 与 组 件 的 抽象 描述 ,与 HDFS 类 似 ， 
MapReduce 采用 了 Master/Slave( 主 /从 ) 架 构 , 其 架构 如 图 7-9 所 示 。 

在 图 7-9 中 ,JobTracker 称 为 Master, TaskTracker 称 为 Slave, 用 户 提交 的 需要 计算 的 
作业 称 为 Job( 作 业 ) ,每 一 个 Job 会 被 划分 成 若干 个 Tasks( 任 务 )。JobTracker 负责 Job 和 
Tasks 的 调度 ,而 TaskTracker 负责 执行 Tasks。 

MapReduce 架构 由 4 个 独立 的 节点 (Node) 组 成 ,分 别 为 Client, JobTracker、 
TaskTracker 和 HDFS., 分 别 介 绍 如 下 。 

(1) Client: 用 来 提交 MapReduce 作业 。 

(2) JobTracker: 用 来 初始 化 作业 、 分 配 作业 并 与 TaskTracker 通信 并 协调 整个 作业 。 
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2:get new joblD 
l:run job 
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program 
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图 7-9 MapReduce 架构 图 





TaskTracker 


9:launch 
Child JVM 


Child 
10:run 


MapTask 


Or 
ReduceTask 





TaskTracker node 





(3) TaskTracker: 将 分 配 过 来 的 数据 片段 执行 MapReduce 任务 ,并 保持 与 JobTracker 


通信 。 


(4) HDFS: 用 来 在 其 他 节点 间 共 享 作业 文件 。 
7.3.2 MapReduce 的 工作 流程 


结合 图 7-9,MapReduce 的 工作 流程 可 简单 概括 为 以 下 10 个 工作 步骤 。 
(1) MapReduce 在 客户 端 启 动 一 个 作业 。 

(2) Client 向 JobTracker 请 求 一 个 JobID。 

(3) Client 将 需要 执行 的 作业 资源 复制 到 HDFS 上 。 
(4) Client 将 作业 提交 给 JobTracker。 

(5) JobTracker 在 本 地 初始 化 作业 。 

(6) JobTracker 从 HDFS 作业 资源 中 获取 作业 输入 的 分 割 信息 ,根据 这 些 信息 将 作业 


分 割 成 多 个 任务 。 


(7) JobTracker 把 多 个 任务 分 配给 在 与 JobTracker 心跳 ( 即 心跳 信和 号) 通信 中 请 求 任 


务 的 TaskTracker。 


(8) TaskTracker 接收 到 新 的 任务 之 后 会 首先 从 HDFS 上 获取 作业 资源 ,包括 作业 配 
置信 息 和 本 作业 分 片 的 输入 。 
(9) TaskTracker 在 本 地 登录 子 JVM(Java Virtual Machine). 
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(10) TaskTracker 启动 一 个 JVM 并 执行 任务 ,并 将 结果 写 回 HDFS。 
本 章 小 结 


MapReduce 是 Hadoop 最 重要 的 组 成 模块 之 一 。MapReduce 由 Map 和 Reduce 两 部 
分 用 户 程序 组 成 ,利用 框架 在 计算 机 集群 上 根据 需求 运行 多 个 程序 实例 来 处 理 各 个 子 任务 ， 
然后 再 对 结果 进行 归并 和 输出。 在 实际 的 工作 环境 中 , MapReduce 的 分 布 式 处 理 框 架 常用 于 
分 布 式 Grep、 分 布 式 排序 、Web 访问 日 志 分 析 、 反 向 索引 构建 文档 聚 类 、 机 器 学 习 、 数 据 分 
析 、 基 于 统计 的 机 器 翻译 和 生成 整个 搜索 引擎 的 索引 等 大 规模 数据 处 理工 作 , 并 且 已 经 在 很 
多 国内 知名 的 互联 网 公司 得 到 广泛 地 应 用 。 

本 章 重点 讲解 了 MapReduce 的 功能 、 技 术 特 征 、 原 理 、 架 构 和 工作 流程 等 方面 的 知识 。 
通过 本 章 的 学 习 , 读 者 将 会 了 解 并 掌握 MapReduce 的 理论 知识 ,为 大 数据 方向 的 深入 学 习 





打下 初步 的 基础 。 
习题 7 
一 、 填 空 题 
1. MapReduce 是 ° 
2. MapReduce 适合 处 理 各 种 类 型 的 数据 ,包括 数据 。 
3. MapReduce 采用 了 架构 。 
4. Map 功能 是 ,然后 返回 一 个 基于 这 个 处 理 的 结果 集 。 
5. Reduce 功能 是 :将 多 个 Map 的 处 理 结 果 集 进行 分 类 和 归纳 。 
6. 意 为 分 片 , 是 Map 任务 最 小 的 输入 单位 。 
7. Shuffle 意 为 洗 牌 ,一 般 包 含 本 地 化 等 操作 。 
8. 键 值 对 是 指 Key 和 Value 之 间 的 关系 ,一 个 Key 值 对 应 一 个 Value。 
9. JobTracker 负责 和 Tasks 的 调度 。 
10. 用 户 提交 的 每 一 个 Job 会 被 划分 成 车 干 个 
二 、 简 答题 


1. 简 述 MapReduce 的 功能 。 

2. 简 述 MapReduce 的 技术 特征 。 

3. (M MapReduce 的 局 限 ( 至 少 列举 出 3 点 )。 

4. 简 述 Map 和 Reduce 的 工作 流程 。 

. 简 述 MapReduce 架构 由 哪些 节点 组 成 各自 的 功能 是 什么 。 
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内 容 与 要 求 


本 章 主要 介绍 NoSQL 的 相关 基础 知识 和 4 种 类 型 数据 管理 方法 (包括 键 值 存储 、 
列 存储 、 面 向 文档 存储 和 图 形 存储 ) 的 特点 、 数 据 管理 的 基本 原理 及 典型 工具 。 

在 “NoSQL 简介 ”一 节 中 ,介绍 NoSQL 的 含义 、 产 生 与 特点 。 

在 “NoSQL 技术 基础 ”一 节 中 ,介绍 一 些 与 NoSQL 相关 的 基本 知识 ,包括 一 致 性 
策略 、 分 区 与 放置 策略 、 复 制 与 容错 技术 和 缓存 技术 等 。 

在 “NoSQL 的 种 类 ”一 节 中 ,介绍 NoSQL 的 4 种 主要 分 类 。 

在 “典型 的 NoSQL 工具 ”一 节 中 .针对 4 种 类 型 的 数据 存储 方式 ,分 别 介绍 其 典型 工具 。 


重点 、 难 点 


本 章 重点 是 掌握 NoSQL 的 基本 知识 以 及 分 类 .难点 是 4 种 不 同类 型 的 数据 管理 
方法 的 工作 原理 及 典型 工具 。 


NoSQL 越 来 越 多 地 被 认为 是 关系 型 数据 库 的 可 行 蔡 代 品 ,特别 适用 于 大 数据 的 存储 。 
传统 的 关系 型 数据 库 因 其 对 数据 模式 的 约束 程度 高 和 对 分 布 式 存储 的 支持 度 差 等 因素 ,已 
经 无 法 满足 复杂 ,海量 的 数据 存储 。 针 对 目前 数据 表现 出 的 数量 大 、 结 构 复 杂 、 格 式 多 样 、 存 
储 要 求 不 一 致 等 特点 ,许多 新 兴 的 打破 关系 模型 的 数据 存储 方案 应 运 而 生 , 人 们 将 其 称 为 
NoSQL。 通 常情 况 下 ,人 们 把 NoSQL 解释 为 非 结构 化 或 是 非 关系 型 数据 管理 方法 ,其 实 更 
加 准确 的 解释 应 该 是 NoSQL—Not Only SQL, 即 不 仅仅 是 关系 型 数据 。 
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8.1 NoSOL 简介 


8.1.1 NoSQL 的 含义 


NoSQL 泛 指 非 关 系 型 的 数据 管理 技术 。 如 果 说 Hadoop 是 一 个 产品 ,那么 NoSQL 就 
是 一 项 技术 。 实 际 上 ,和 处 理 常 规 数据 一 样 ,任何 为 处 理 大 数据 而 服务 的 产品 也 都 要 选择 符 
合 实际 情况 的 数据 管理 方式 。 由 于 网 络 上 数据 量 激增 ,传统 关系 型 数据 库 不 能 满足 生活 、. 生 
产 需要 , 越 来 越 多 的 人 开始 放弃 严整 .规矩 的 关系 模型 ,另辟蹊径 地 去 拓展 研发 新 型 的 数据 
存储 方式 ,如 键 值 存储 、 列 存储 ` 面 向 文档 存储 和 图 形 存储 等 ,这 些 都 属于 NoSQL 的 范畴 。 

HDFS 在 Hadoop 中 扮演 数据 存储 的 角色 ,可 以 将 任何 类 型 的 文件 按照 分 布 式 的 方法 
进行 存储 。 而 NoSQL 更 侧重 于 数据 管理 层面 ,可 以 应 用 于 结构 化 、 半 结构 化 和 非 结 构 化 数 
据 存储 。 举 一 个 例子 ,Hadoop 中 的 HBase 正 是 采用 NoSQL 中 的 列 存储 方式 对 数据 进行 
管理 的 。 在 Hadoop 的 架构 中 ,Hbase 利用 HDFS 文件 系统 中 存放 的 数据 来 解决 特定 的 数 
据 处 理 问 题 。 这 期 间 , HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 , MapReduce 为 
HBase 提供 了 高 性 能 的 计算 能 力 。 


8.1.2 NoSQL 的 产生 


随 着 大 数据 时 代 的 到 来 及 互联 网 Web 2.0 网 站 的 兴起 ,传统 的 关系 型 数据 库 在 应 付 海 
量 数据 存储 和 读 取 , 以 及 超大 规模 、 高 并 发 的 Web 2. 0 纯 动 态 网 站 的 数据 处 理 方面 已 经 显 
得 力不从心 ,同时 也 暴露 出 很 多 难以 克服 的 问题 。 而 非 关 系 型 的 数据 管理 方法 则 由 于 其 本 
身 的 特点 得 到 了 非常 迅速 的 发 展 。NoSQL 技术 的 产生 就 是 为 了 应 对 这 一 挑战 。NoSQL 的 
概念 最 初 在 2009 年 被 提出 ,对 传统 的 数据 管理 方式 是 一 次 颠覆 性 的 改变 。 

NoSQL 有 很 多 种 存储 方式 ,拥有 很 多 家 族 成 员 ,NoSQL 的 中 文 网 站 如 图 8-1 所 示 , 其 
中 包括 键 值 存储 、 面 向 文档 存储 、 列 存储 、 图 形 存 储 和 xml 数据 存储 等 。 其 实在 NoSQL 的 
概念 被 提出 之 前 ,这 些 数据 存储 方式 就 已 经 被 用 于 各 种 系统 当中 ,只 是 很 少 被 用 于 Web 互 
联网 应 用 中 。 

NoSQL 兴起 的 主要 原因 主要 是 传统 的 关系 型 数据 库 在 网 络 数据 存 取 上 遇 到 了 瓶颈 。 
不 得 不 说 ,传统 的 关系 型 数据 库 具 有 卓越 的 性 能 ,高 稳定 性 , 且 使 用 简单 ,功能 强大 ,这 使 得 
传统 的 关系 型 数据 库 在 20 世纪 90 年 代 , 网 站 访问 数据 量 不 是 很 大 的 情况 下 ,发 挥 了 令 人 瞩 
目的 作用 。 

面临 这 些 大 数据 管理 的 困扰 , 非 关系 型 数据 管理 方式 越 来 越 被 人 们 重视 ,并 迅速 发 展 。 
人 们 把 这 些 有 别 于 传统 关系 型 数据 库 的 数据 管理 技术 统称 为 NoSQL 技术 。 

在 这 里 可 以 看 到 NoSQL 的 多 个 种 类 及 各 自 的 典型 产品 。 


8.1.3 NoSQL 的 特点 


NoSQL 技术 之 所 以 能 够 在 大 数据 冲击 互联 网 的 情况 下 脱颖而出 ,主要 是 因为 其 具有 以 
下 特点 。 
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(1) 易 扩展 性 。 尽 管 NoSQL 数据 库 种 类 繁多 ,但 是 它们 都 有 一 个 共同 的 特点 ,就 是 没 
有 了 关系 型 数据 库 中 的 数据 与 数据 之 间 的 关系 。 很 显然 , 当 数据 之 间 不 存在 关系 时 ,数据 的 
可 扩展 性 就 变 得 可 行 了 。 

(2) 数据 量 大 ,性 能 高 。NoSQL 数据 库 都 具有 非常 高 的 读 写 性 能 ,尤其 在 大 数据 量 下 ， 
同样 表现 优秀 。 这 得 益 于 它 的 无 关系 性 ,数据 之 间 的 结构 简单 。 一 般 情况 下 ,关系 型 数据 库 
使 用 的 是 Cache 在 “ 表 ” 这 一 层面 的 更 新 ,是 一 种 大 粒度 的 Cache 更 新 , 当 网 络 上 的 数据 发 生 
频繁 交互 时 ,就 表现 出 了 明显 劣势 。 而 NoSQL 使 用 的 是 Cache 在 “记录 ”层面 的 更 新 ,是 一 
种 细 粒 度 的 Cache 更 新 ,所 以 NoSQL 在 这 个 方面 上 也 显示 了 较 高 的 性 能 特点 。 

(3) 灵活 的 数据 模型 。 由 于 NoSQL 无 须 事先 为 要 存储 的 数据 建立 字段 ,所 以 在 应 用 中 
随时 可 以 存储 自 定义 的 数据 格式 。 而 在 关系 数据 库 里 ,增删 字段 是 一 件 非常 麻烦 的 事情 ,万 
其 对 数据 量 非 常 大 的 表 而 言 , 随 时 更 改 表 结构 几乎 是 无 法 实现 的 。 而 这 一 点 在 大 数据 量 的 
Web 2.0 时 代 尤 为 重要 。 

(4) 高 可 用 性 。NoSQL 在 不 太 影响 性 能 的 情况 .就 可 以 方便 地 实现 高 可 用 的 架构 , 比 
如 Cassandra、HBase 模型 等 。 











8.2 ”NoSOL 技术 基础 


NoSQL 技术 对 大 数据 的 管理 是 怎么 实现 的 呢 ? 其 中 又 要 遵循 哪些 基本 原则 呢 ? 本 节 
为 读者 在 大 数据 的 一 致 性 策略 ,大 数据 的 分 区 与 放置 策略 ,大 数据 的 复制 与 容错 技术 及 大 数 
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据 的 缓存 技术 等 方面 进行 介绍 。 
8.2.1 大 数据 的 一 致 性 策略 


在 大 数据 管理 的 众多 方面 .数据 的 一 致 性 理论 是 实现 对 海量 数据 进行 管理 的 最 基本 的 
理论 。 学 习 这 部 分 内 容 有 利于 读者 对 本 章 内 容 的 阅读 和 深化 理解 。 

分 布 式 系统 的 CAP 理论 是 构建 NoSQL 数据 管理 
的 基石 。CAP, 即 一 致 性 (Consistency)、 可 用 人 性 
(Availability) 和 分 区 容错 性 (Partition Tolerance) , 如 





图 8-2 所 示 。 el | a 
1. 一 致 性 
一 致 性 是 指 在 分 布 式 系统 中 的 所 有 数据 备份 ,在 

同一 时 刻 均 为 同样 的 值 。 也 就 是 当 数 据 执行 更 新 操作 分 区 容错 性 

时 ,要 保证 系统 内 的 所 有 用 户 读 取 到 的 数据 是 相同 的 。 Pmton Toleranta 
2. 可 用 性 





可 用 性 是 指 在 系统 中 任何 用 户 的 每 一 个 操作 均 能 
在 一 定 的 时 间 内 返回 结果 ,即便 当 集 群 中 的 部 分 节点 
发 生 故 障 时 ,集群 整体 仍 能 响应 客户 端的 读 写 请 求 。 这 里 要 强调 “在 一 定时 间 内 ”, 而 不 是 让 
用 户 遥 遥 无 期 地 等 待 。 

3. 分 区 容错 性 

以 实际 效果 而 言 , 分 区 相当 于 对 通信 的 时 限 要 求 。 系 统 如 果 不 能 在 时 限 内 达成 数据 一 
致 性 ,就 意味 着 发 生 了 分 区 的 情况 ,必须 就 当前 操作 在 一 致 性 和 可 用 性 之 间 做 出 选择 。 

从 上 面 的 解释 不 难看 出 ,系统 不 能 同时 满足 一 致 性 .可 用 性 和 分 区 容错 性 这 3 个 特性 ， 
在 同一 时 间 只 能 满足 其 中 的 两 个 ,如 图 8-3 所 示 。 因 此 系统 设计 者 必须 在 这 3 个 特性 中 做 
出 抉择 。 


图 8-2 CAP 理论 3 个 特性 











- 致 性 可 用 性 
Consistency Availability 
a 


分 区 容错 人 性 


PartitionTolerance 


图 8-3 CAP 理论 3 个 特性 之 间 的 关系 


8.2.2 大 数据 的 分 区 与 放置 策略 
在 大 数据 时 代 , 如 何 有 效 地 存储 和 处 理 海量 的 数据 显得 尤为 重要 。 如 果 使 用 传统 方法 
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处 理 这些 数 据 ,所 消耗 的 时 间 代价 将 十 分 巨大 .这 是 人 们 无 法 接受 的 ,所 以 必须 打破 传统 的 
将 所 有 数据 都 存放 在 一 处 ,每 次 查找 、 修 改 数据 都 必须 遍历 整个 数据 集合 的 方法 。 数 据 分 区 
技术 与 放置 策略 的 出 现 正 是 为 了 解决 数据 存储 空间 不 足 及 如 何 提高 数据 库 性 能 等 方面 问 
题 的 。 

1. 大 数据 分 区 技术 

通俗 地 讲 ,数据 分 区 其 实 就 是 "化 整 为 零 ”, 通 过 一 定 的 规则 将 超大 型 的 数据 表 分 割 成 车 
干 小 块 来 分 别处 理 。 表 进行 分 区 时 需要 使 用 分 区 键 来 标志 每 一 行 属于 哪 一 个 分 区 ,分 区 键 
以 列 的 形式 保存 在 表 中 。 

数据 分 区 可 以 提高 数据 的 可 管理 性 ,改善 数据 库 性 能 和 数据 可 用 性 ,缩小 了 每 次 数据 查 
询 的 范围 ,并 且 在 对 数据 进行 维护 时 ,可 以 只 针对 某 一 特定 分 区 ,大 幅 地 提高 数据 维护 的 
效率 。 

下 面 介绍 几 种 常见 的 数据 分 区 算法 。 

1) 范围 分 区 

范围 分 区 是 最 早出 现 的 数据 分 区 算法 ,也 是 最 为 经 典 的 一 个 。 所 谓 范 围 分 区 ,就 是 将 数 
据 表 内 的 记录 按照 某 个 属性 的 取 值 范 围 进行 分 区 。 

2) 列表 分 区 

列表 分 区 主要 应 用 于 各 记录 的 某 一 属性 上 的 取 值 为 一 组 离散 数值 的 情况 , 且 数 据 集合 
中 该 属性 在 这 些 离散 数值 上 的 取 值 重复 率 很 高 。 采 用 列表 分 区 时 ,可 以 通过 所 要 操作 的 数 
据 直 接 查找 到 其 所 在 分 区 。 

3) 哈 希 分 区 

哈 希 分 区 需要 借助 哈 希 函数 ,首先 把 分 区 进行 编号 ,然后 通过 哈 希 函数 来 计算 确定 分 区 
内 存储 的 数据 。 这 种 方法 要 求 数据 在 分 区 上 的 分 布 是 均匀 的 。 

以 上 3 种 分 区 算法 的 特点 和 适用 范围 各 异 ,在 选择 使 用 时 应 充分 地 考虑 实际 需求 和 数 
据 表 的 特点 ,这 样 才 能 真正 发 挥 数 据 分 区 在 提高 系统 性 能 上 的 作用 。 

2. 大 数据 放置 策略 

为 解决 海量 数据 的 放置 问题 ,涌现 了 很 多 数据 放置 的 算法 ,大 体 上 可 以 分 为 两 大 类 : 顺 
序 放置 策略 和 随机 放置 策略 。 采 用 顺序 放置 策略 是 将 各 个 存储 节点 看 成 是 迎 辑 有 序 的 ,在 
对 数据 副本 进行 分 配 时 先 将 同一 数据 的 所 有 副本 编号 ,然后 采用 一 定 的 映射 方式 将 各 个 副 
本 放置 到 对 应 序号 的 节点 上 ; 随机 放置 策略 通常 是 基于 某 一 哈 希 函数 来 实现 对 数据 的 放置 
的 ,所 以 这 里 所 谓 的 随机 其 实 也 是 有 规律 的 ,很 多 时 候 称 其 为 伪 随 机 放置 策略 。 


8.2.3 大 数据 的 复制 与 容错 技术 


在 大 数据 时 代 , 每 天 都 产生 需要 处 理 的 大 量 的 数据 ,在 处 理 数据 的 过 程 中 ,难免 会 有 差 
错 , 这 可 能 会 导致 数据 的 改变 和 丢失 。 为 了 避免 这 些 数据 错误 的 出 现 , 必 须 对 数据 进行 及 时 
的 备份 ,这 就 是 数据 复制 的 重要 性 。 同 时 ,一 旦 出 现 数据 错误 ,系统 还 要 具备 故障 发 现 及 处 
理 故 障 的 能 力 。 

数据 复制 技术 在 处 理 海量 数据 过 程 中 虽然 是 必 不 可 少 的 ,但 是 ,对 数据 进行 备份 也 要 付 
出 相应 的 代价 。 首 先 ,数据 的 备份 带 来 了 大 量 的 时 间 代 价 和 空间 代价 ; 其 次 ,为 了 减少 时 间 
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和 空间 上 的 代价 ,研究 人 员 投入 大 量 的 时 间 . 人 力 和 物力 来 研发 提升 新 的 数据 复制 策略 ; 另 
外 ,在 数据 备份 的 过 程 中 往往 会 出 现 意 想不到 的 差错 ,此 时 就 需要 数据 容错 技术 和 相应 的 故 


障 处 理 方案 进行 辅助 。 


构成 分 布 式 系统 的 计算 机 五 花 八 门 , 每 台 计 算 机 又 是 由 各 式 各 样 的 软 硬 件 组 成 的 ,所 以 
在 整个 系统 中 可 能 随时 会 出 现 故 障 或 错误 。 这 些 故 障 和 错误 往往 是 随机 产生 的 ,用 户 无 法 
做 到 提前 预知 ,甚至 是 当 问题 发 生 时 都 无 法 及 时 察觉 。 如 果 一 个 系统 能 够 对 无 法 预期 的 软 
硬件 故障 做 出 适当 的 对 策 和 应 变 措施 ,那么 就 可 以 说 这 个 系统 具备 一 定 的 容错 能 力 。 

系统 故障 主要 可 以 分 为 以 下 几 类 ,如 表 8-1 所 示 。 


表 8-1 分 布 式 环境 下 的 系统 故障 类 型 















































故障 类 型 故障 子 类 故障 语义 
KLAMM | ”服务 器 朋 流 (停机 ) EINE 
Unai IR $ EREET S T DTE 
TAA | RTN REA 
停机 型 崩溃 | 服务 器 完全 停机 
服务 器 对 输入 的 请 求 设 有 明 应 
失职 故障 RARR 服务 器 无 法 接收 信 作 
ENR “| ”服务 器 无 法 发 送信 件 
i 服务 器 对 服务 请 求 做 出 铺 误 反应 
应 答 故 障 | ERNE ERRA 
状态 变迁 改 际 | WA NA IERIE DE 
[TIT REA EDR A im ih BUE tTM 
随意 故障 服务 器 在 任意 时 间 产 生 的 随意 错误 


处 理 故 障 的 基本 方法 有 主动 复制 .被动 复制 和 半 主 动 复制 。 所 谓 主 动 复制 指 的 是 所 有 
的 复制 模块 协同 进行 ,并 且 状 态 紧密 同步 。 被 动 复制 是 指 只 有 一 个 模块 为 动态 模块 ,其 他 模 
块 的 交互 状态 由 这 一 模块 的 检查 单 定期 更 新 。 半 主动 复制 是 前 两 种 的 混合 方法 ,所 需 的 恢 


复 开销 相对 较 低 。 


8.2.4 大 数据 的 缓存 技术 


单机 的 数据 库 系统 引入 缓存 技术 是 为 了 在 用 户 和 数据 库 之 间 建 立 一 层 缓存 机 制 , 把 经 
常 访问 的 数据 常 驻 于 内 存 缓冲 区 ,利用 内 存 高 速 读 取 的 特点 来 提高 用 户 对 数据 查询 的 效率 。 
在 分 布 式 环境 下 ,由 于 组 成 系统 的 各 个 节点 配置 和 使 用 的 数据 库 系 统 及 文件 系统 不 尽 相 同 ， 
要 想 在 这 样 复杂 的 环境 下 提高 对 海量 数据 的 查询 效率 ,仅仅 依靠 单机 的 缓存 技术 就 行 不 


通 了 。 


与 单机 的 缓存 技术 目的 相同 ,分 布 式 缓存 技术 的 出 现 也 是 为 了 提高 系统 的 数据 查询 性 
能 。 另 外 ,为 整个 系统 建立 一 层 缓冲 ,也 便于 在 不 同 节点 之 间 进 行 数据 交换 。 分 布 式 缓存 可 
以 横 跨 多 个 服务 器 ,所 以 可 以 灵活 地 进行 扩展 。 

从 图 8-4 中 不 难看 出 ,如 果 各 种 . NET 应 用 .Web 服务 和 网 格 计算 等 应 用 程序 在 短 时 间 
内 集中 频繁 的 访问 数据 库 服务 器 ,很 有 可 能 会 导致 其 瘫痪 而 无 法 工作 。 如 果 在 应 用 程序 和 
数据 库 之 间 加 上 一 道 缓冲 屏障 则 可 以 解决 这 一 问题 。 
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图 8-4 ”分布 式 系统 数据 读 取 示意 图 


8.3 NoSOL 的 类 型 


为 了 解决 传统 关系 型 数据 库 无 法 满足 大 数据 需求 的 问题 ,目前 涌现 出 了 很 多 种 类 型 的 
NoSQL 数据 库 技 术 。NoSQL 数据 库 种 类 之 所 以 如 此 众多 ,其 部 分 原因 可 以 归结 于 CAP 


理论 。 


根据 上 一 节 介绍 过 的 CAP 理论 ,在 一 致 性 .可 用 性 和 分 区 容错 性 这 三 者 中 通常 只 能 同 
时 实现 两 者 。 不 同 的 数据 集 及 不 同 的 运行 时 间 规 则 迫使 人 们 采取 不 同 的 解决 方案 。 各 类 数 
据 库 技 术 针 对 的 具体 问题 也 有 所 区 别 。 数 据 自 身 的 复杂 性 及 系统 的 可 扩展 能 力 都 是 需要 认 
真 考虑 的 重要 因素 。NoSQL 数据 库 通 常 分 成 键 值 (Key-Value) 存储 、 列 存储 (Column- 
Oriented) ,文档 (Document-Oriented) 存储 和 图 形 存 储 (Graph-Oriented)4 类 。 表 8-2 列举 
出 了 4 种 类 型 NoSQL 的 特点 及 典型 产品 。 


表 8-2 4 种 类 型 NoSQL 的 特点 及 典型 产品 














存储 类 型 特 性 典型 工具 

键 值 存储 | 可 以 通过 键 快速 查询 到 值 , 值 无 须 符合 特定 格式 Redis 

列 存储 ramun, u kes 的 高 频 查询 有 很 好 的 IO Bigtable, Hbase 
优势 

文档 存储 | 数据 以 文档 形式 存储 ,没有 固定 格式 CouchDB, MongoDB 

图 形 存储 | 以 图 形 的 形式 存储 数据 及 数据 之 间 的 关系 











Neo4J 





在 下 面 的 部 分 里 ,将 对 这 4 种 不 同类 型 的 数据 处 理 方法 就 原理 、 特 点 和 使 用 方面 分 别 做 
出 比较 详细 的 介绍 。 
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8.3.1 键 值 存储 


Key-Value 键 值 数据 模型 是 NoSQL 中 最 基本 的 、 最 重要 的 数据 存储 模型 。Key-Value 
的 基本 原理 是 在 Key 和 Value 之 间 建 立 一 个 映射 关系 ,类 似 于 哈 希 函数 。Key-Value 数据 
模型 和 传统 关系 数据 模型 相 比 有 一 个 根本 的 区 别 , 就 是 在 Key-Value 数据 模型 中 没有 模式 
的 概念 。 在 传统 关系 数据 模型 中 ,数据 的 属性 在 设计 之 初 就 被 确定 下 来 了 ,包括 数据 类 型 、 
取 值 范围 等 。 而 在 Key-Value 模型 中 ,只 要 制定 好 Key 与 Value 之 间 的 映射 , 当 遇 到 一 个 
Key 值 时 ,就 可 以 根据 映射 关系 找到 与 之 对 应 的 Value, 其 中 Value 的 类 型 和 取 值 范围 等 属 
性 都 是 任意 的 ,这 一 特点 决定 了 其 在 处 理 海量 数据 时 具有 很 大 的 优势 。 


8.3.2 列 存 储 


列 存储 是 按 列 对 数据 进行 存储 的 ,在 对 数据 进行 查询 (Select) 的 过 程 中 非常 有 利 ,与 传 
统 的 关系 型 数据 库 相 比 ,可 以 在 查询 效率 上 有 很 大 的 提升 。 

列 存储 可 以 将 数据 存储 在 列 族 中 。 存 储 在 一 个 列 族 中 的 数据 通常 是 经 常 被 一 起 查询 的 
相关 数据 。 例 如 ,如 果 有 一 个 "住院 患者 类, 人们 通常 会 同时 查询 患者 的 住院 号 ` 姓 名 和 性 
别 , 而 不 是 他 们 的 过 敏 史 和 主治 医生 。 这 种 情况 下 ,住院 号 ,姓名 和 性 别 就 会 被 放 入 一 个 列 
族 中 ,而 过 敏 史 和 主治 医生 信息 则 不 应 该 包含 在 这 个 列 族 中 。 

列 存储 的 数据 模型 具有 支持 不 完整 的 关系 数据 模型 适合 规模 巨大 的 海量 数据 、 支 持 分 
布 式 并 发 数据 处 理 等 特点 。 总 的 来 讲 , 列 存储 数据 库 的 模式 灵活 、 修 改 方便 、 可 用 性 高 、 可 扩 
展 性 强 。 


8.3.3 面向 文档 存储 


面向 文档 存储 是 IBM 最 早 提出 的 ,是 一 种 专门 用 来 存储 管理 文档 的 数据 库 模 型 。 面 向 
文档 数据 库 是 由 一 系列 自 包含 的 文档 组 成 的 。 这 意味 着 相关 文档 的 所 有 数据 都 存储 在 该 文 
档 中 ,而 不 是 关系 数据 库 的 关系 表 中 。 事 实 上 ,面向 文档 的 数据 库 中 根本 不 存在 表 、 行 、 列 或 
关系 ,这 意味 着 它们 是 与 模式 无 关 的 ,不 需要 在 实际 使 用 数据 库 之 前 定义 严格 的 模式 。 与 传 
统 的 关系 型 数据 库 和 20 世纪 50 年 代 的 文件 系统 管理 数据 的 方式 相 比 ,都 有 很 大 的 区 别 。 
下 面 就 具体 介绍 它们 的 区 别 。 

在 古老 的 文件 管理 系统 中 ,数据 不 具备 共享 性 ,每 个 文档 只 对 应 一 个 应 用 程序 ,也 就 是 
即使 是 多 个 不 同 应 用 程序 都 需要 相同 的 数据 ,也 必须 各 自 建立 属于 自己 的 文件 。 而 面向 文 
档 数据 库 虽 然 是 以 文档 为 基本 单位 ,但 是 仍然 属于 数据 库 范畴 ,因此 它 支持 数据 的 共享 。 这 
就 大 大 地 减少 了 系统 内 的 数据 元 余 , 节 省 了 存储 空间 ,也 便于 数据 的 管理 和 维护 。 

在 传统 关系 型 数据 库 中 ,数据 被 分 割 成 离散 的 数据 段 ,而 在 面向 文档 数据 库 中 ,文档 被 
看 作 是 数据 处 理 的 基本 单位 。 所 以 ,文档 可 以 很 长 也 可 以 很 短 , 可 以 复杂 也 可 以 简单 ,不必 
受到 结构 的 约束 。 但 是 ,这 两 者 之 间 并 不 是 相互 排斥 的 .它们 之 间 可 以 相互 交换 数据 ,从 而 
实现 相互 补充 和 扩展 。 

例如 ,如 果 某 个 文档 需要 添加 一 个 新 字段 .那么 在 文档 中 仅 需 包含 该 字段 即 可 ,而 不 需 
要 对 数据 库 中 的 结构 做 出 任何 改变 。 所 以 ,这 样 的 操作 丝毫 不 会 影响 到 数据 库 中 其 他 任何 
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文档 。 因 此 ,文档 不 必 为 没有 值 的 字段 存储 空 数据 值 。 

假如 在 关系 数据 库 中 ,需要 4 张 表 来 储存 数据 : 一 个 "Person " 表 、 一 个 "Company” 表 、 
— “Contact Details” 表 和 一 个 用 于 储存 名 片 本 身 的 表 。 这 些 表 都 有 严格 定义 的 列 和 键 ， 
并 且 使 用 一 系列 的 连接 (Join) 组 装 数据 。 虽 然 这 样 做 的 优势 是 每 段 数据 都 有 一 个 唯一 真实 
的 版 本 ,但 这 为 以 后 的 修改 带 来 不 便 。 此 外 ,也 不 能 修改 其 中 的 记录 以 用 于 不 同 的 情况 。 例 
如 ,一 个 人 可 能 有 手机 号 码 , 也 有 可 能 没有 。 当 某 个 人 没有 手机 号 码 时 ,那么 在 名 片上 不 应 
该 显示 “手机 : 没有 ”, 而 是 忽略 任何 关于 手机 的 细节 。 这 就 是 面向 文档 存储 和 传统 关系 型 
数据 库 在 处 理 数据 上 的 不 同 。 很 显然 ,由 于 没有 固定 模式 ,面向 文档 存储 显得 更 加 灵活 。 

面向 文档 数据 库 和 关系 数据 库 的 另 一 个 重要 区 别 就 是 面向 文档 数据 库 不 支持 连接 。 因 
此 ,如 在 典型 工具 CouchDB 中 就 没有 主键 和 外 键 , 没 有 基于 连接 的 键 。 这 并 不 意味 着 不 能 
从 CouchDB 数据 库 获取 一 组 关系 数据 。CouchDB 中 的 视图 允许 用 户 为 未 在 数据 库 中 定义 
的 文档 创建 一 种 任意 关系 。 这 意味 着 用 户 能 够 获得 典型 的 SQL 联合 查询 的 所 有 好 处 ,但 又 
不 需要 在 数据 库 层 预定 义 它们 的 关系 。 

虽然 面向 文档 数据 库 的 操作 方式 在 处 理 大 数据 方面 优 于 关系 数据 库 , 但 这 并 不 意味 着 
面向 文档 数据 库 就 可 以 完全 替代 关系 数据 库 , 而 是 为 更 适合 这 种 方式 的 项 目 提供 一 种 更 佳 
的 选择 ,如 wikis、 博 客 和 文档 管理 系统 等 。 


8.3.4 图 形 存储 


图 形 存储 是 将 数据 以 图 形 的 方式 进行 存储 。 在 构造 的 图 形 中 ,实体 被 表示 为 节点 ,实体 

与 实体 之 间 的 关系 则 被 表示 为 边 。 其 中 最 简单 的 图 形 就 是 一 个 节点 ,也 就 是 一 个 拥有 属性 

的 实体 。 关 系 可 以 将 节点 连接 成 任意 结构 。 那 么 ,对 数据 的 查询 就 转化 成 了 对 图 的 遍历 。 

图 形 存储 最 卓越 的 特点 就 是 研究 实体 与 实体 间 的 关系 ,所 以 图 形 存储 中 有 丰富 的 关系 表示 ， 

这 在 NoSQL 成 员 中 是 独一无二 的 。 

在 具体 的 情况 下 ,可 以 根据 算法 从 某 个 节点 开始 ,按照 节点 之 间 的 关系 找到 与 之 相关 联 

的 车 点。 例如 , 想 要 在 住院 患者 的 数据 库 中 查找 “负责 外 科 15 床 患 者 的 主治 医生 和 主管 护 
士 是 谁 ?”, 这 样 的 问题 在 图 形 数 据 库 中 就 很 容易 得 到 解决 。 

下 面 利 用 一 个 实例 来 说 明 在 关系 复杂 的 情况 下 .图 形 存储 较 关系 型 存储 的 优势 。 在 一 

部 电影 中 ,演员 常常 有 主 、 配 角 之 分 ,还 要 有 投资 人 、 导 演 、 特 效 等 人 员 的 参与 。 在 关系 模型 

中 ,这 些 都 被 抽象 为 Person 类 型 ,存放 在 同一 个 数据 表 

Ou o 中 。 但 是 ,现实 的 情况 是 ,一 位 导演 可 能 是 其 他 电影 或 

者 电视 剧 的 演员 ,更 可 能 是 歌手 ,甚至 是 某 些 影视 公司 

的 投资 者 。 在 这 个 实例 中 ,实体 和 实体 间 存 在 多 个 不 同 
的 关系 ,如 图 8-5 所 示 。 

在 关系 型 数据 库 中 ,要 想 表达 这 些 实体 及 实体 间 联 

系 . 就 首先 需要 建立 一 些 表 , 如 表示 人 的 表 、 表 示 电 影 的 

表 、 表 示 电 视 剧 的 表 、 表 示 影 视 公 司 的 表 等 。 要 想 研 究 

实体 和 实体 之 间 的 关系 ,就 要 对 表 建 立 各 种 联系 ,如 

图 8-6 所 示 。 由 于 数据 库 需 要 通过 关联 表 来 间接 地 实 

图 8-5 实体 及 实体 间 关 系 现实 体 间 的 关系 ,这 就 导致 数据 库 的 执行 效能 下 降 , 同 
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时 数据 库 中 的 数量 也 会 急剧 上 升 。 
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图 8-6 关系 模型 中 的 表 及 表 间 联系 


除了 性 能 之 外 , 表 的 数量 也 是 一 个 非常 让 人 头疼 的 问题 。 刚 刚 仅仅 是 举 了 一 个 具有 4 
个 实体 的 例子 一 人、 电影 ,电视剧 和 影视 公司 ,现实 生活 中 的 例子 可 不 是 这 么 简单 。 不 难 
看 出 , 当 需 要 描述 大 量 关 系 时 ,传统 的 关系 型 数据 库 显 得 不 堪 重 负 , 它 更 擅长 的 是 实体 较 多 
但 关系 简单 的 情况 。 而 对 于 一 些 实体 间 关 系 比 较 复杂 的 情况 ,高 度 支 持 关系 的 图 形 存储 才 
是 正确 的 选择 。 它 不 仅仅 可 以 为 人 们 带 来 运行 性 能 的 提升 ,更 可 以 大 大 地 提高 系统 开发 效 
率 , 减 少 维护 成 本 。 

在 需要 表示 多 对 多 关系 时 ,常常 需要 创建 一 个 关联 表 来 记录 不 同 实体 的 多 对 多 关系 ,而 
且 这 些 关联 表 常常 不 用 来 记录 信息 。 如 果 两 个 实体 之 间 拥 有 多 种 关系 ,那么 就 需要 在 它们 
之 间 创 建 多 个 关联 表 。 而 在 一 个 图 形 数 据 库 中 ,只 需要 标明 两 者 之 间 存 在 着 不 同 的 关系 , 例 
如 ,用 DirectBy 关系 指向 电影 的 导演 ,或 用 ActBy 关系 来 指定 参与 电影 拍摄 的 各 个 演员 , 同 
时 在 ActBy 关系 中 ,更 可 以 通过 关系 中 的 属性 来 表示 其 是 否 是 该 电影 的 主演 。 而 且 从 上 面 
所 展示 的 关系 的 名 称 上 可 以 看 出 ,关系 是 有 向 的 。 如 果 希 望 在 两 个 节点 集 间 建 立 双 向 关系 ， 
就 需要 为 每 个 方向 定义 一 个 关系 。 这 两 者 的 比较 如 图 8-7 所 示 。 

关系 型 数据 库 
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图 形 数据 库 
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Film Person 
name name 














ActBy(isLead) 


图 8-7 关系 模型 与 图 形 存储 的 比较 





8.4 典型 的 NoSQL 工具 


由 于 大 数据 时 代 刚 刚 到 来 ,基于 各 类 数据 模型 开发 的 数据 库 系 统 层出不穷 ,各 个 公司 机 
构 之 间 的 竞争 十 分 激烈 。 这 一 节 将 介绍 目前 实际 应 用 中 比较 典型 的 3 个 NoSQL 工具 ,以 
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此 来 代表 4 种 不 同 的 NoSQL 数据 管理 类 型 。 
8.4.1 Redis 


Redis 是 一 个 典型 的 开源 Key-Value 数据 库 。 目 前 Redis 的 最 新 版 本 为 3. 2. 0, 如 图 8-8 所 
示 。 用 户 可 以 在 Redis 官网 *http://redis. io/download” 上 获取 最 新 的 版 本 代码 。 
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图 8-8 Redis 使 用 界面 


1. Redis 的 运行 平台 

Redis 可 以 在 Linux 和 Mac OS X 等 操作 系统 下 运行 使 用 ,其 中 Linux 为 主要 推荐 的 操 
作 系 统 。 虽 然 官方 没有 提供 支持 Windows 的 版 本 ,但 是 微软 开发 并 维护 一 个 Win-64 的 
Redis 端口 。 

2. Redis 的 特点 

(1) 支持 存储 的 类 型 多 样 。 与 传统 的 关系 型 数据 库 或 是 其 他 非 关系 型 数据 库 相 比 ， 
Redis 支持 存储 的 Value 类 型 是 非常 多 样 的 ,不 限于 字符 串 , 还 包括 String( 字 符 串 )、 Hash 
( 哈 希 ) List HER) 、Set( 集 合 ) 和 Zset( 有 序 集合 ) 等 。 

(2) 存储 效率 高 ,同步 性 好 。 为 了 保证 效率 ,Redis 将 数据 缓存 在 内 存 中 ,并 周期 性 地 把 
更 新 的 数据 写 人 磁盘 或 者 把 修改 操作 写 入 追加 的 记录 文件 中 ,并 且 在 此 基础 上 实现 了 主 从 
同步 。 


8.4.2 Bigtable 


Bigtable 是 Google 在 2004 年 开始 研发 的 一 个 分 布 式 结构 化 数据 存储 系统 ,运用 按 列 
存储 数据 的 方法 ,是 一 个 未 开源 的 系统 。 目 前 .已 经 有 超过 百 余 个 项 目 或 服务 是 由 Bigtable 
来 提供 技术 支持 的 ,如 Google Analytics, Google Finance, Writely, Personalized Search 和 




















大 数据 技术 与 应 
100 


Google Earth 等 。Bigtable 的 许多 设计 思想 还 被 应 用 在 很 多 其 他 的 NoSQL 数据 库 中 。 

1. Bigtable 的 数据 模型 

Bigtable 不 支持 完整 的 关系 数据 模型 ,相反 ,Bigtable 为 客户 提供 了 简单 的 数据 模型 。 
利用 这 个 模型 ,客户 可 以 动态 控制 数据 的 分 布 和 格式 , 即 对 Big Table 而 言 , 数 据 是 没有 格式 
的 ,用 户 可 以 自己 去 定义 。 

2. Bigtable 的 存储 原理 和 架构 

Bigtable 将 存储 的 数据 都 视 为 字符 串 ,但 是 Bigtable 本 身 不 去 解析 它们 。 通 过 仔细 选 
择 数据 的 模式 ,客户 可 以 控制 数据 的 位 置 相关 性 ,并 根据 BigTable 的 模式 参数 来 控制 数据 
是 存放 在 内 存 中 还 是 硬盘 上 。 

Bigtable 数据 库 的 架构 ,由 主 服 务 器 和 分 服务 器 构成 ,如 图 8-9 所 示 。 如 果 把 数据 库 看 
成 是 一 张大 表 , 那 么 可 将 其 划分 为 许多 基本 的 小 表 , 这 些小 表 就 称 为 Tablet, 是 Bigtable 中 
最 小 的 处 理 单位 。Bigtable 主要 包括 三 个 主要 部 分 : 一 个 主 服务 器 、 多 个 Tablet 服务 器 和 
链接 到 客户 端的 程序 库 。 主 服务 器 负责 将 Tablet 分 配 到 Tablet 服务 器 ,检测 新 增 和 过 期 
的 Tablet 服务 器 ,平衡 Tablet 服务 器 之 间 的 负载 ,GFS 垃圾 文件 的 回收 ,数据 模式 的 改变 
(如 创建 表 ) 等 。Tablet 服务 器 负责 处 理 数 据 的 读 写 ,并 在 Tablet 规模 过 大 时 进行 拆 分 。 
图 8-9 中 的 Google WorkQueue 是 一 个 分 布 式 的 任务 调度 器 ,主要 用 来 处 理 分 布 式 系统 队 
列 分 组 和 任务 调度 ,负责 故障 处 理 和 监控 ; GFS 负责 保存 Tablet 数据 及 日 志 ; Chubby 负 
责 帮助 主 服务 器 发 现 Tablet 服务 器 , 当 Tablet 服务 器 不 响应 时 , 主 服务 器 就 会 通过 扫描 
Chubby 文件 获取 文件 锁 , 如 果 获 取 成 功 就 说 明 Tablet 服务 器 发 生 了 故障 , 主 服务 器 就 会 重 
做 Tablet 服务 器 上 的 所 有 Tablet。 
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图 8-9 Bigtable 的 系统 架构 


8.4.3 CouchDB 


CouchDB 是 一 个 开源 的 面向 文档 的 数据 管理 系统 。Couch 即 Cluster Of Unreliable 
Commodity Hardware, 反 映 了 CouchDB 的 目标 具有 高 度 可 伸缩 性 ,提供 了 高 可 用 性 和 高 可 
靠 性 ,即使 运行 在 容易 出 现 故障 的 硬件 上 也 是 如 此 。CouchDB 最 初 是 用 C++ 编写 的 ,在 
2008 年 4 月 ,这 个 项 目 转 移 到 Erlang/OTP 平台 进行 容错 测试 。Erlang 语言 是 一 种 并 发 性 
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的 函数 式 编程 语言 ,可 以 说 它 是 因 并 发 而 生 , 因 大 数据 云 计算 而 热 ,OTP 是 Erlang 的 编程 
框架 ,是 一 个 Erlang 开发 的 中 间 件 。 

CouchDB 是 用 Erlang 开发 的 面向 文档 的 数据 库 系统 ,是 完全 面向 Web 的 ,截至 2014 
年 10 月 最 新 版 本 为 CouchDB 1. 6.1。 

1. CouchDB 的 运行 平台 

CouchDB 可 以 安装 在 大 部 分 操作 系统 上 ,包括 Linux 和 Mac OS X。 尽 管 目前 还 不 正 
式 支持 Windows, 但 现在 已 经 开始 着 手 编写 Windows 平台 的 非 官 方 二 进 制 安装 程序 。 
CouchDB 可 以 从 源 文件 安装 ,也 可 以 使 用 包 管 理 器 安装 ,是 一 个 顶级 的 Apache Software 
Foundation 开源 项 目 , 并 允许 用 户 根据 需求 使 用 ,修改 和 分 发 该 软件 。 

2. CouchDB 的 文档 更 新 

传统 的 关系 数据 库 管 理 系 统 有 时 使 用 并 发 锁 来 管理 并 发 性 ,从 而 防止 其 他 客户 机 访问 
某 个 客户 机 正在 更 新 的 数据 。 这 就 防止 了 多 个 客户 机 同时 更 改 相同 的 数据 ,但 对 于 多 个 客 
户 机 同时 使 用 一 个 系统 的 情况 ,数据库 在 确定 哪个 客户 机 应 该 接收 锁 并 维护 锁 队 列 的 次 序 
时 会 遇 到 困难 。 

CouchDB 的 文档 更 新 模型 是 无 锁 的 。 客 户 端 应 用 程序 加 载 文档 ,应 用 变更 ,再 将 修改 
后 的 数据 保存 到 服务 器 主机 上 ,这 样 就 完成 了 文档 编辑 。 如 果 一 个 客户 端 试 图 对 文档 进行 
修改 ,而 此 时 其 他 客户 端 也 在 编辑 相同 的 文档 ,并 优先 保存 了 修改 ,那么 该 客户 端 在 保存 时 
将 会 返回 编辑 冲突 (Edit Conflict) 错 误 。 为 了 解决 更 新 冲突 ,可 以 获取 到 最 新 的 文档 版 本 ， 
重新 修改 后 再 尝试 更 新 。 文 档 更 新 操作 ,包括 对 文档 的 添加 、 编 辑 和 删除 具有 原子 性 ,要 么 
全 部 成 功 ,要 么 全 部 失败 。 数 据 库 永远 不 会 出 现 部 分 保存 或 者 部 分 编辑 的 文档 。 

3. CouchDB 与 SQL 的 对 比 

与 传统 的 SQL 相 比 ,CouchDB 在 对 数据 的 要 求 和 查询 操作 等 方面 都 存在 很 大 的 不 同 ， 
K 8-3 从 这 几 个 方面 对 二 者 进行 了 比较 。 

表 8-3 传统 的 SQL 和 CouchDB 的 对 比 




















传统 SQL 数据 库 CouchDB 
结构 需要 预定 义 ,并 遵循 一 定 的 模式 结构 无 须 预定 义 , 没 有 周 定 模式 
是 结构 统一 的 表 的 集合 是 任意 结构 的 文档 的 集合 
数据 需要 满足 一 定 的 范式 ,数据 无 元 余 数据 不 必 满足 任何 范式 ,存在 数据 元 余 
用 户 需 要 事前 清楚 表 结 构 用 户 无 须 了 解 文档 结构 ,甚至 是 文档 名 
属于 静态 模式 下 的 动态 查询 属于 动态 模式 下 的 静态 查询 





本 章 小 结 


在 20 世纪 ,各 网 站 的 访问 量 一 般 都 不 大 ,用 单个 数据 库 完全 可 以 轻松 应 付 。 在 那个 时 
候 , 更 多 的 都 是 静态 网 页 ,动态 交互 类 型 的 网 站 不 多 。 近 10 年 ,各 类 型 网 站 快速 发 展 , 收 到 
网 友 广泛 热 捧 的 论坛 .博客 、 微 博 等 逐渐 开始 引领 Web 领域 的 潮流 。NoSQL 数据 库 的 出 
现 ,弥补 了 关系 数据 在 某 些 方面 的 不 足 . 在 某 些 方 面 能 极 大 地 节省 开发 和 维护 成 本 。 
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大 大 小 小 的 Web 站 点 在 追求 高 效 、 高 性 能 、 高 可 靠 性 方面 ,不 由 自主 地 都 选择 了 
NoSQL 技术 。 随 着 Web 2. 0 的 快速 发 展 , 非 关系 型 .分布 式 数据 存储 得 到 了 快速 的 发 展 。 
NoSQL 通常 被 分 为 键 值 存储 、 列 存储 、 面 向 文档 存储 和 图 形 存 储 (Graph-Oriented) 四 大 类 。 
在 NoSQL 概念 提出 之 前 ,这 些 数据 库 就 被 用 于 各 种 系统 当中 ,但 是 却 很 少 用 于 互联 网 
应 用 。 
本 章 首先 对 NoSQL 做 以 简介 ,包括 NoSQL 的 含义 、 产 生 与 特点 ,接着 介绍 了 NoSQL 
中 涉及 到 的 数据 库 基 础 知识 ,并 从 和 传统 数据 库 比较 的 角度 指导 读者 理解 ,第 三 部 分 介绍 了 
4 种 主流 NoSQL 数据 库 的 基本 工作 方式 ,最 后 介绍 了 各 种 类 型 NoSQL 数据 库 的 典型 


产品 。 
习题 8 

一 、 填空 题 

1. Hadoop 中 起 到 NoSQL 作用 的 模块 是 5 

2. NoSQL 可 以 处 理 的 数据 类 型 有 。 

3. NoSQL 具有 \ 数 据 量 大 且 性 能 高 、 和 等 特点 。 

4. CAP 理论 中 的 C 是 的 缩写 ,其 中 文 含义 是 

5. 若 想 将 数据 表 内 的 记录 按照 某 个 属性 的 取 值 范围 进行 分 区 ,应 该 选择 分 区 
算法 。 

6. 想 要 提高 系统 的 数据 查询 性 能 ,避免 大 量 客户 端 应 用 程序 在 短 时 间 内 集中 频繁 的 访 
问 数据 库 服 务 器 ,应 该 采用 技术 。 

7. Key-Value 的 基本 原理 是 在 Key 和 Value 之 间 建 立 一 个 ,类 似 于 哈 希 
函数 。 

8. 传统 关系 型 数据 库 是 按照 行 对 数据 进行 查询 的 ,与 其 不 同 的 是 , 列 存 储 是 按照 
— 实现 数据 查询 的 。 

9. 数据 以 文档 形式 存储 ,无须 固定 格式 的 数据 存储 方法 为 o 

10. 侧重 于 描述 实体 间 相 互 关系 的 数据 存储 方法 为 o 

二 、 简 答题 

1. 简 述 NoSQL 的 含义 ,以 及 NoSQL 与 传统 关系 型 数据 库 相 比 在 处 理 大 数据 时 的 


2. 
3. 
4. 


简 述 CAP 理论 的 含义 ,并 解释 为 什么 在 CAP 3 个 特性 中 只 能 同时 满足 其 中 的 两 个 。 
简 述 常见 的 大 数据 分 区 技术 有 哪 几 种 ,并 分 别 说 明 其 特点 。 
简 述 大 数据 缓存 技术 的 作用 。 
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内 容 与 要 求 

Spark 是 一 个 围绕 速度 、 易 用 性 和 复杂 分 析 构 建 的 大 数据 处 理 框架 ,并 在 近 两 年 内 
发 展 成 为 大 数据 处 理 领 域 最 炙手可热 的 开源 项 目 。 

“Spark 平台 ”一 节 介 绍 Spark 的 发 展 与 Spark 的 开发 语言 Scala。 

“Spark 与 Hadoop” 一 节 介 绍 Hadoop 的 局 限 与 不 足 ,Spark 的 优点 。 

“Spark 处 理 架 构 及 其 生态 系统 ”一 节 介绍 Spark 生态 系统 的 组 成 与 各 个 模块 的 概 
念 与 应 用 。 

“Spark 的 应 用 ”一 节 介 绍 Spark 的 应 用 场景 与 成 功 案例 。 


重点 、 难 点 
本 章 的 重点 是 Hadoop 和 Spark 的 关系 、Spark 的 优点 \Spark 生态 系统 的 组 成 , 难 
点 是 Spark 生态 系统 中 各 个 模块 的 概念 与 应 用 。 


在 大 数据 领域 ,Apache Spark( 以 下 简称 Spark) 通 用 并 行 分 布 式 计 算 框 架 越 来 越 受 人 
EEH. Spark 适合 各 种 迭代 算法 和 交互 式 数据 分 析 . 能 够 提升 大 数据 处 理 的 实时 性 和 准确 
性 ,能 够 更 快速 地 进行 数据 分 析 。 




















大 数据 技术 与 应 
r C 7 < z: 


9.1 Spark 平台 


Spark 和 Hadoop 都 属于 大 数据 的 框架 平台 ,而 Spark 是 Hadoop 的 后 继 产 品 。 由 于 
Hadoop 设计 上 只 适合 离线 数据 的 计算 以 及 在 实时 查询 和 迭代 计算 上 的 不 足 , 已 经 不 能 满 
足 日 益 增 长 的 大 数据 业务 需求 。 因 而 Spark 应 运 而 生 ,Spark 具有 可 伸缩 在 线 处 理 、 基 于 
内 存 计算 等 特点 ,解决 了 Hadoop 存在 的 不 足 , 并 可 以 直接 读 写 Hadoop 上 任何 格式 的 数 
据 , 人 们 完全 可 以 这 样 认 为 ,未 来 的 大 数据 领域 一 定 是 Spark 的 天 下 。 


9.1.1 Spark 简介 


Spark 是 一 个 开源 的 通用 并 行 分 布 式 计算 框架 ,2009 年 由 加 州 大 学 伯克利 分 校 的 AMP 
实验 室 开 发 ,是 当前 大 数据 领域 最 活跃 的 开源 项 目 之 一 。Spark 是 基于 MapReduce 算法 实 
现 的 分 布 式 计算 ,拥有 MapReduce 所 具有 的 优点 ; 但 不 同 于 MapReduce 的 是 将 操作 过 程 
中 的 中 间 结 果 保 存在 内 存 中 ,从 而 不 再 需要 读 写 HDFS, 因 此 Spark 能 更 好 地 适用 于 数据 挖 
据 与 机 器 学 习 等 需要 迭代 的 MapReduce 算法 。 

Spark 也 称 为 快 数据 ,与 Hadoop 的 传统 计算 方式 MapReduce 相 比 ,效率 至 少 提 高 100 
倍 。 比 如 逻辑 回归 算法 在 Hadoop 和 Spark 上 的 运行 时 间 对 比 ,可 以 看 出 Spark 的 效率 有 
很 大 的 提升 ,如 图 9-1 所 示 。 


Running mm Hadoop 
time(s) 60 


30 


图 9-1 逻辑 回归 算法 在 Hadoop 和 Spark 上 的 运行 时 间 对 比 


Spark 框架 还 提供 多 语言 支持 , 它 不 仅仅 支持 编写 其 源码 的 Scala 语言 ,而 且 对 现在 非 
常 流行 的 Java 和 Python 语言 也 有 着 良好 的 支持 。 现 在 Spark R 项 目 也 在 紧锣密鼓 的 开发 
中 ,不 久之 后 的 Spark 版 本 也 将 对 R 语言 进行 很 好 的 支持 。 


9.1.2 Spark 发 展 


Spark 的 发 展 速度 非常 迅速 。2009 年 .Spark 诞生 ; 2010 年 , Spark 正式 开源 ; 2013 
年 成 为 了 Apache 基金 项 目 ; 2014 年 成 为 Apache 基金 的 顶级 项 目 , 整 个 过 程 不 到 5 年 
时 间 。 

从 2013 年 6 月 到 2014 年 6 月 ,Spark 的 开发 人 员 从 原来 的 68 位 增长 到 255 位 ,参与 开 
发 的 公司 也 从 17 家 上 升 到 50 家 。 在 这 50 家 公司 中 ,有 来 自 中 国 的 阿里 巴巴 百度、 网 易 、 
腾讯 和 搜狐 等 公司 。 当 然 , 代 码 库 的 代码 行 也 从 原来 的 63 000 行 增 加 到 75 000 ff, K 9-2 
为 截止 2014 年 Spark 的 开发 人 员 数 量 每 个 月 的 增长 曲线 。 
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图 9-2 Spark 的 开发 人 员 数 量 每 个 月 的 增长 曲线 


Spark 广泛 地 应 用 在 国内 外 各 大 公司 ,比如 国外 的 谷歌 亚马逊、 雅虎 微软 和 国内 的 百 
度 、 腾 讯 . 爱 奇 艺 、 阿 里 等 公司 。 如 阿里 巴巴 将 Spark 应 用 在 双 十 一 购物 节 中 ,处 理 当 中 产生 
的 大 量 的 实时 的 数据 ; 爱 奇 艺 应 用 Spark 对 其 业务 量 日 益 增 长 的 视频 服务 提供 数据 分 析 和 
存储 的 支持 ; 百度 利用 Spark 进行 大 数据 量 网 页 搜索 的 优化 的 实践 。 随 着 各 行业 数据 量 的 
与 日 俱 增 , 相 信 Spark 会 应 用 到 越 来 越 多 的 生产 场景 中 去 。 





9.1.3 Scala 语言 


Scala 语言 是 Spark 框架 的 开发 语言 ,是 一 种 类 似 Java 的 编程 语言 ,设计 初衷 是 实现 可 
伸缩 的 语言 .并 集成 面向 对 象 编程 和 函数 式 编程 的 各 种 特性 。Spark 能 成 为 一 个 高 效 的 大 
数据 处 理 平台 ,与 其 使 用 Scala 语言 编写 是 分 不 开 的 。 尽 管 Spark 支持 使 用 Scala、Java 和 
Python3 种 开发 语言 进行 分 布 式 应 用 程序 的 开发 .但 是 Spark 对 于 Scala 的 支持 却 是 最 好 
的 。 因 为 这 样 可 以 和 Spark 的 源 代码 进行 更 好 的 无 缝 结合 ,更 方便 地 调用 其 相关 功能 。 

Scala 在 序列 化 、 分 布 式 框架 .编码 效率 等 多 个 方面 都 有 着 很 好 的 兼容 和 支持 ,所 以 在 构 
建 大 型 软件 项 目 和 对 复杂 数据 进行 处 理 方面 ,有 着 很 大 的 优势 。Scala 语言 基于 JVM, 因 此 
Scala 可 以 很 好 的 支持 所 有 Java 代码 和 类 库 , 并 且 可 以 在 编写 过 程 中 随时 调用 和 编写 Java 
WAJ, Scala 不 仅 具 有 面向 对 象 的 特点 ,而 且 还 具有 函数 式 编程 语言 的 特性 。 


9.2 Spark 5 Hadoop 


Spark 是 当前 流行 的 分 布 式 并 行 大 数据 处 理 框架 ,具有 快速 ` 通 用、 简单 等 特点 。Spark 
的 提出 很 大 程度 上 是 为 了 解决 Hadoop 在 处 理 和 迭代 算法 上 的 缺陷 。Spark 可 以 与 Hadoop 
联合 使 用 ,增强 Hadoop 的 性 能 。 同 时 ,Spark 还 增加 了 内 存 缓存 、 流 数据 处 理 、 图 数据 处 理 
等 更 为 高 级 的 数据 处 理 能 力 。 


9.2.1 Hadoop 的 局 限 与 不 足 


Hadoop 的 框架 中 的 MapReduce 为 海量 的 数据 提供 了 计算 ,但 是 MapReduce 存在 以 下 
局 限 ,使 用 起 来 比较 困难 。 
D 抽象 层次 低 , 需 要 手工 编写 代码 来 完成 ,用 户 难以 上 手 使 用 。 
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(2) 只 提供 两 个 操作 ,Map 和 Reduce, RIKI RE. 

(3) 处 理 多 辑 隐藏 在 代码 细节 中 ,没有 整体 逻辑 。 

(4) 中 间 结 果 也 放 在 HDFS 文件 系统 中 ,中 间 结 果 不 可 见 , 不 可 分 享 。 

(5) ReduceTask 需要 等 待 所 有 MapTask 都 完成 后 才 可 以 开始 。 

(6) 延 时 长 ,响应 时 间 完 全 没有 保证 ,只 适用 批量 数据 处 理 , 不 适用 于 交互 式 数据 处 理 
和 实时 数据 处 理 。 


(7) 对 村 





9.2.2 Spark 的 优点 


与 Hadoop 相 比 ,Spark 真正 的 优势 在 于 速度 ,除了 速度 之 外 ,Spark 还 有 很 多 的 优点 ， 
如 表 9-1 所 示 。 


F 图 处理 和 和 迭代 式 数据 处 理性 能 比较 差 。 



































表 9-1 Hadoop 与 Spark 的 对 比 
类 别 Hadoop Spark 
工作 方式 | 非 在 线 .静态 在 线 动态 
处 理 速 度 | 高 延迟 比 Hadoop 快 数 十 倍 至 上 百倍 
EE 开发 语言 : JAVA 语言 最 好 在 Linux R | 开发 语言 : 以 Scala 为 主 的 多 语言 对 Linux 和 
F 统 下 搭建 ,对 Windows 的 兼容 性 不 好 Windows 等 操作 系统 的 兼容 性 都 非常 好 
存储 方式 | 磁盘 既 可 以 仅 用 内 存 存储 ,也 可 以 在 磁盘 上 存储 
操作 类 型 只 提供 Map 和 Reduce 两 个 操作 ,表达 | 提供 很 多 转换 和 动作 ,很 多 基本 操作 如 Join、 
Kii “| 力 欠 缺 GroupBy 已 经 在 RDD 转换 和 动作 中 实现 
除了 能 够 提供 交互 式 实 时 查询 外 ,还 可 以 进行 图 
. 1 活 XN 32 j 
数据 处 理 | 只 适用 数据 的 批 处 理 , 实 时 处 理 非常 差 处 理 . 流 式 计算 和 反复 迄 代 的 机 器 学 习 等 
逻辑 性 ct EERS 代码 不 包含 具体 操作 的 实现 细节 ,逻辑 更 清 呆 
抽象 层次 | 抽象 层次 低 , 需 要 手工 编写 代码 来 完成 | Spark 的 API 更 强大 ,抽象 层次 更 高 
可 测试 性 | 不 容易 容易 


9.2.3 Spark 速度 比 Hadoop 快 的 原因 分 解 


1. Hadoop 数据 抽取 运算 模型 

使 用 Hadoop 处 理 一 些 问题 诸如 迭代 式 计算 ,每 次 对 磁盘 和 网 络 的 开销 相当 大 。 尤 其 
每 一 次 迭代 计算 都 将 结果 要 写 到 磁盘 再 读 回来 ,另外 计算 的 中 间 结 果 还 需要 三 个 备份 。 
Hadoop 中 的 数据 传送 与 共享 . 串 行 方式 .复制 以 及 磁盘 1/O 等 因素 使 得 Hadoop 集群 在 低 
延迟 、 实 时 计算 方面 表现 有 待 改进 。Hadoop 的 数据 抽取 运算 模型 如 图 9-3 所 示 。 

从 图 9-3 中 可 以 看 出 , Hadoop 中 数据 的 抽取 运算 是 基于 磁盘 的 ,中 间 结 果 也 存储 在 磁 
盘 上 。 所 以 .MapReduce 运算 伴随 着 大 量 的 磁盘 的 1/O 操作 .运算 速度 严重 地 受到 了 限制 。 

2. Spark 数据 抽取 运算 模型 

Spark 使 用 内 存 (RAMD) 代 蔡 了 传统 HDFS 存储 中 间 结 果 .Spark 的 数据 抽取 运算 模型 
如 图 9-4 所 示 。 
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图 9-3 Hadoop 数据 抽取 运算 模型 
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图 9-4 Spark 数据 抽取 运算 模型 


从 图 9-4 中 可 以 看 出 ,Spark 这 种 内 存 型 计算 框架 比较 适合 各 种 迭代 算法 和 交互 式 数 
据 分 析 。 可 每 次 将 操作 过 程 中 的 中 间 结 果 存 人 内 存 中 ,下 次 操作 直接 从 内 存 中 读 取 , 省 去 了 
大 量 的 磁盘 I/O 操作 ,效率 也 随 之 大 幅 提 升 。 


9.3 Spark 处 理 架 构 及 其 生态 系统 


Spark 整个 生态 系统 分 为 3 层 , 如 图 9-5 所 示 。 





Spark SQL MLlib | GraphX Spark Streaming 























Spark Runtime 





Cluster Manager Data Manager 


Yam Mesos | HDFS AWS 


图 9-5 Spark 生态 系统 组 成 
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从 底 向 上 分 别 为 : 

(1) 底层 的 Cluster Manager 和 Data Manager: Cluster Manager 负责 集群 的 资源 管 
理 ; Data Manager 负责 集群 的 数据 管理 。 

(2) 中 间 层 的 Spark Runtime, 即 Spark 内 核 。 它 包括 Spark 的 最 基本 、 最 核心 的 功能 
和 基本 分 布 式 算 子 。 

(3) 最 上 层 为 4 个 专门 用 于 处 理 特定 场景 的 Spark 高 层 模块 : Spark SQL、 MLlib、 
GraphX 和 Spark Streaming, 这 4 个 模块 基于 Spark RDD 进行 了 专门 的 封装 和 定制 ,可 以 
无 颖 结合 ,互相 配合 。 


9.3.1 底层 的 Cluster Manager 和 Data Manager 


Cluster Manager 负责 集群 的 资源 管理 ; Data Manager 负责 集群 的 分 布 式 存储 (数据 
EH). 

1. 集群 的 资源 管理 可 以 选择 Yarn, Mesos 等 

Mesos 是 Apache 下 的 开源 分 布 式 资源 管理 框架 , 它 被 称 为 是 分 布 式 系统 的 内 核 。 
Mesos 根据 资源 利用 率 和 资源 占用 情况 ,在 整个 数据 中 心 内 进行 任务 的 调度 ,提供 类 似 于 
YARN 的 功能 。Mesos 内 核 运行 在 每 个 机 器 上 ,可 以 通过 数据 中 心 和 云 环 境 向 应 用 程序 
(Hadoop, Spark 等 ) 提 供 资源 管理 和 资源 负载 的 API 接口 。 

2. 集群 的 数据 管理 则 可 以 选择 HDFS、AWS 等 

Spark 支持 HDFS 和 AWS 两 种 分 布 式 存储 系统 。 亚 马 逊 云 计算 服务 AWS Amazon 
Web Services, AWS) 提 供 全 球 计算 ,存储 ,数据 库 、 分 析 、 应 用 程序 和 部 署 服务 ; AWS 提供 
的 云 服务 中 支持 使 用 Spark 集群 进行 大 数据 分 析 。Spark 对 文件 系统 的 读 取 和 写 入 功能 是 
Spark 自己 提供 的 ,借助 Mesos 分 布 式 实现 。 


9.3.2 中 间 层 的 Spark Runtime 


Spark Runtime 包含 Spark 的 基本 功能 ,这 些 功 能 主要 包括 任务 调度 、 内 存 管理 ,故障 
恢复 以 及 和 存储 系统 的 交互 等 。Spark 的 一 切 操作 都 是 基于 RDD 实现 的 ,RDD 是 Spark 
中 最 核心 的 模块 和 类 ,也 是 Spark 设计 的 精华 所 在 。 

1. RDD 的 概念 

RDD( Resilient Distributed Datasets) 即 弹性 分 布 式 数据 集 ,可 以 简单 地 把 RDD 理解 成 
一 个 提供 了 许多 操作 接口 的 数据 集合 ,和 一 般 数据 集 不 同 的 是 ,其 实际 数据 分 布 存储 在 磁盘 
和 内 存 中 。 

对 开发 者 而 言 ,RDD 可 以 看 作 是 Spark 中 的 一 个 对 象 , 它 本 身 运 行 于 内 存 中 ,如 读 文件 
是 一 个 RDD. 对 文件 计算 是 一 个 RDD, 结 果 集 也 是 一 个 RDD, 不 同 的 分 片 . 数 据 之 间 的 依 
赖 、Key-Value 类 型 的 Map 数据 都 可 以 看 做 RDD. RDD 是 一 个 大 的 集合 ,将 所 有 数据 都 加 
载 到 内 存 中 ,方便 进行 多 次 重用 。 

2. RDD 的 操作 类 型 

RDD 提供 了 丰富 的 编程 接口 来 操作 数据 集合 .一 种 是 Transformation 操作 , 另 一 种 是 
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Action 操作 。 


(1) Transformation 的 返回 值 是 一 个 RDD, 如 Map,Filter,Union 等 操作 。 它 可 以 理解 
为 一 个 领取 任务 的 过 程 。 如 果 只 提交 Transformation 是 不 会 提交 任务 来 执行 的 ,任务 只 有 
在 Action 提交 时 才 会 被 触发 。 

(2) Action 返回 的 结果 把 RDD 持久 化 起 来 ,是 一 个 真正 触发 执行 的 过 程 。 它 将 规划 以 
任务 (Job) 的 形式 提交 给 计算 引擎 ,由 计算 引擎 将 其 转换 为 多 个 Task, 然 后 分 发 到 相应 的 计 
算 节点 ,开始 真正 的 处 理 过 程 。 

Spark 的 计算 发 生存 RDD 的 Action 操作 ,而 对 Action 之 前 的 所 有 Transformation, 
Spark 只 是 记录 下 RDD 生成 的 轨迹 ,而 不 会 触发 真正 的 计算 。 

Spark 内 核 会 在 需要 计算 发 生 的 时 刻 绘制 一 张 关于 计算 路 径 的 有 向 无 环 图 (Directed 
Acyclic Graph,DAG) 。 举 个 例子 ,在 图 9-6 中 ,从 输入 中 人 逻辑 上 生成 A 和 C 两 个 RDD, 经 
过 一 系列 Transformation 操作 ,逻辑 上 生成 了 下 ,注意 ,这 时 候 计 算 没 有 发 生 ,Spark 内 核 只 
是 记录 了 RDD 的 生成 和 依赖 关系 。 当 下 要 进行 输出 (进行 了 Action 操作 ) 时 ,Spark 会 根 
据 RDD 的 依赖 生成 DAG, 并 从 起 点 开始 真正 的 计算 。 


= A B <= 


E e-m eB = 


图 9-6 有 向 无 环 图 DAG 的 生成 











9.3.3 高 层 的 应 用 模块 


1. Spark SQL 

Spark SQL 作为 Spark 大 数据 框架 的 一 部 分 ,主要 用 于 结构 化 数据 处 理 和 对 Spark 数 
据 执行 类 SQL 的 查询 ,并 且 与 Spark 生态 的 其 他 模块 无 缝 结合。Spark SQL 兼容 SQL, 
Hive、JSON、JDBC 和 ODBC 等 操作 。Spark SQL 的 前 身 是 Shark. 而 Shark 的 前 身 是 
Hive, Shark I£ Hive 在 性 能 上 要 高 出 一 到 两 个 数量 级 ,而 Spark SQL HE Shark 在 性 能 上 又 
要 高 出 一 到 两 个 数量 级 。 

2. MLlib 

MLlib 是 一 个 分 布 式 机 器 学 习 库 , 即 在 Spark 平台 上 对 一 些 常 用 的 机 器 学 习 算 法 进行 
了 分 布 式 实现 , 随 着 版 本 的 更 新 , 它 也 在 不 断 地 扩充 新 的 算法 。MLlib 支持 多 种 分 布 式 机 器 
学 习 算 法 ,如 分 类 ,回归 、 聚 类 等 ,MLlib 已 经 实现 的 算法 如 表 9-2 所 示 。 

表 9-2 MLlib 已 经 实现 的 算法 














算 法 BJ 能 
Classilication/Clustenng/ Regressionilree 分 类 算法 .回归 算法 .决策 树 . 聚 类 算法 
Optimization 核心 算法 的 优化 方法 实现 
Stat 基础 统计 
Feature 预 处 理 
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续 表 
算 法 功 能 
Evaluation 算法 效果 衡量 
Linalg 基础 线性 代数 运算 支持 
Recommendation 推荐 算法 











3. GraphX 

GraphX 是 构建 于 Spark 上 的 图 计算 模型 , GraphX 利用 Spark 框架 提供 的 内 存 缓存 
RDD, DAG 和 基于 数据 依赖 的 容错 等 特性 ,实现 高 效 健壮 的 图 计算 框架 。GraphX 的 出 现 ， 
使 得 Spark 生态 系统 在 大 图 处 理 和 计算 领域 得 到 了 更 加 的 完善 和 丰富 ,同时 其 与 Spark 生 
态 系统 其 他 组 件 进行 很 好 的 融合 ,以 及 强大 的 图 数据 处 理 能 力 ,使 其 广泛 地 应 用 在 多 种 大 图 
处 理 的 场景 中 。 

GraphX 实现 了 很 多 能 够 在 分 布 式 集群 上 运行 的 并 行 图 计算 算法 ,而 且 还 拥有 丰富 的 
API 接口 。 因 为 图 的 规模 大 到 一 定 的 程度 之 后 ,需要 将 算法 并 行 化 ,以 方便 其 在 分 布 式 集群 
上 进行 大 规模 处 理 。GraphX 优势 就 是 提升 了 数据 处 理 的 吞吐 量 和 规模 。 

4. Spark Streaming 

Spark Streaming 是 Spark 系统 中 用 于 处 理 流 数据 的 分 布 式 流 处 理 框架 ,扩展 了 Spark 
流 式 大 数据 处 理 能 力 。Spark Streaming 将 数据 流 以 时 间 片 为 单位 进行 分 割 形 成 RDD. fë 
够 以 相对 较 小 的 时 间 间 隔 对 流 数据 进行 处 理 。Spark Streaming 还 能 够 和 其 余 Spark 生态 
的 模块 ,如 Spark SQL、GraphX .MLlib 等 进行 无 缝 的 集成 ,以 便 联合 完成 基于 实时 流 数据 
处 理 的 复杂 任务 。 

如 果 要 用 一 句 话 来 概括 Spark Streaming 的 处 理 思路 的 话 , 那 就 是 “将 连续 的 数据 持久 
化 、 离 散 化 ,然后 进行 批量 处 理 ”。 

D 数据 持久 化 。 将 从 网 络 上 接收 到 的 数据 先 暂时 存储 下 来 ,为 事件 处 理 出 错时 的 事 
件 重 演 提 供 可 能 。 

(2) 数据 离散 化 。 数 据 源源 不 断 的 涌 进 ,永远 没有 尽头 。 既 然 不 能 穷尽 ,那么 就 将 其 按 
时 间 分 片 。 比 如 采用 一 分 钟 为 时 间 间 隔 , 那 么 在 连续 的 一 分 钟 内 收集 到 的 数据 就 集中 存储 
在 一 起 。 

(3) 批量 处 理 。 将 持久 化 下 来 的 数据 分 批 进行 处 理 , 处 理 机 制 套用 之 前 的 RDD 模式 。 





9.4 Spark 的 应 用 


目前 大 数据 在 互联 网 公司 主要 应 用 在 广告 报表、 推荐 系统 等 业务 上 。 这 些 业 务 都 需要 
大 数据 做 应 用 分 析 、 效 果 分 析 、 定 向 优化 等 。 这 些 应 用 场景 的 普遍 特点 是 计算 量 大 ,反复 操 
作 的 次 数 多 ,效率 要 求 高 ,Spark 恰恰 满足 了 这 些 要 求 。 


9.4.1 Spark 的 应 用 场景 
Spark 可 以 解决 大 数据 计算 中 的 批 处 理 .交互 查询 及 流 式 计 算 等 核心 问题 。Spark 还 可 
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以 从 多 数据 源 读 取 数 据 ,并 且 拥 有 不 断 发 展 的 机 器 学 习 库 和 图 计算 库 供 开发 者 使 用 。Spark 
的 各 个 子 模块 以 Spark 内 核 为 基础 ,进一步 地 支持 更 多 的 计算 场景 .例如 ,使 用 Spark SQL 
读 人 的 数据 可 以 作为 机 器 学 习 库 MLlib 的 输入 。 表 9-3 列举 了 Spark 的 应 用 场景 。 
表 9-3 Spark 的 应 用 场景 
































应 用 场景 时 间 对 比 成 熟 的 框架 Spark 
复杂 的 批量 数据 处 理 小 时 级 ,分 钟 级 MapReduce( Hive) | Spark Runtime 
基于 历史 数据 的 交互 式 查询 分 钟 级 , 秒 级 MapReduce Spark SQL 
基于 实时 数据 流 的 数据 处 理 秒 级 , 秒 级 Storm Spark Streaming 
基于 历史 数据 的 数据 挖掘 分 钟 级 , 秒 级 Mahout Spark MLlib 
基于 增 量 数据 的 机 器 学 习 分 钟 级 无 Spark Streaming+ MLlib 
基于 图 计算 的 数据 处 理 分 钟 级 无 Spark GraphX 


9.4.2 应 用 Spark 的 成 功 案例 


Spark 的 优势 不 仅 体现 性 能 的 提升 , Spark 框架 为 批 处 理 (Spark Core)、SQL 查询 
(Spark SQL) , 流 式 计算 (Spark Streaming) ,机 器 学 习 (MLlib)、 图 计算 (GraphX) 提 供 一 个 
统一 的 数据 处 理 平台 ,这 相对 于 使 用 Hadoop 有 很 大 的 优势 。 已 经 成 功 应 用 Spark 的 典型 
案例 如 下 。 

1. 腾讯 

为 了 满足 挖掘 分 析 与 交互 式 实时 查询 的 计算 需求 ,腾讯 大 数据 使 用 了 Spark 平台 来 支 
持 挖 气 分 析 类 计算 ,交互 式 实时 查询 计算 以 及 允许 误差 范围 的 快速 查询 计算 ,目前 腾讯 大 数 
据 拥 有 超过 200 台 的 Spark 集群 。 

腾讯 大 数据 精准 推荐 借助 Spark 快速 迭代 的 优势 ,围绕 “数据 十 算法 十 系统 "这 套 技 术 
方案 ,实现 了 在 “数据 实时 采集 、 算 法 实时 训练 、 系 统 实时 预测 ”的 全 流程 实时 并 行 高 维 算法 ， 
最 终 成 功 应 用 于 广 点 通 上 ,支持 每 天 上 百 亿 的 请 求 量 。 

2. Yahoo 

在 Spark 技术 的 研究 与 应 用 方面 .Yahoo 始终 处 于 领先 地 位 , 它 将 Spark 应 用 于 公司 的 
各 种 产品 之 中 。 移 动 App、 网 站 、 广 告 服务 、 图 片 服务 等 服务 的 后 端 实时 处 理 框架 均 采 用 了 
Spark 的 架构 。 

Yahoo 选择 Spark 基于 以 下 几 点 进行 考虑 。 

(1) 进行 交互 式 SQL 分 析 的 应 用 需求 。 

(2) RAM 和 SSD 价格 不 断 下 降 , 数 据 分 析 实 时 性 的 需求 越 来 越 多 ,大 数据 急需 一 个 内 
存 计算 框架 进行 处 理 。 

G) 程序 员 熟 悉 Scala 开发 ,学习 Spark 速度 快 。 

(4) Spark 的 社区 活跃 度 高 ,开源 系统 的 Bug 能 够 更 快 地 解决 。 

(5) 可 以 无 颖 将 Spark 集成 进 现 有 的 Hadoop Ak MRH 。 

3. 淘宝 

淘宝 技术 团队 使 用 了 Spark 来 解决 多 次 迭代 的 机 器 学 习 算法 、 高 计算 复杂 度 的 算法 等 ， 
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将 Spark 运用 于 淘宝 的 推荐 相关 算法 上 ,同时 还 利用 Graphx 解决 了 许多 生产 问题 ,比如 : 

(1) Spark Streaming: 淘宝 在 云梯 构建 基于 Spark Streaming 的 实时 流 处 理 框架 。 
Spark Streaming 适合 处 理 历史 数据 和 实时 数据 混合 的 应 用 需求 ,能 够 显著 提高 流 数 据 处 理 
的 吞吐 量 。 其 对 交易 数据 、 用 户 浏览 数据 等 流 数据 进行 处 理 和 分 析 , 能 够 更 加 精准 、 快 速 地 
发 现 问 题 和 进行 预测 。 

(2) GraphX: 淘宝 将 交易 记录 中 的 物品 和 人 组 成 大 规模 图 。 使 用 GraphX 对 这 个 大 图 
进行 处 理 ( 上 亿 个 节点 , 几 十 亿 条 边 )。GraphX 能 够 和 现 有 的 Spark 平台 无 颖 集成 ,减少 多 
平台 的 开发 代价 。 

4. 优酷 土豆 

优酷 土豆 作为 国内 最 大 的 视频 网 站 ,和 国内 其 他 互联 网 巨头 一 样 ,率先 看 到 大 数据 对 公 
司 业务 的 价值 , 早 在 2009 年 就 开始 使 用 Hadoop 集群 , 随 着 这 些 年 业务 迅猛 发 展 ,优酷 土豆 
又 率先 尝试 了 仍 处 于 大 数据 前 沿 领域 的 Spark 内 存 计算 框架 ,很 好 地 解决 了 机 器 学 习 和 图 
计算 多 次 迭代 的 瓶 天 问题 ,使 得 公司 大 数据 分 析 更 加 完善 。 

据 了 解 ,优酷 土豆 采用 Spark 大 数据 计算 框架 得 到 了 英特尔 公司 的 帮助 ,起 初 优酷 土豆 
并 不 熟悉 Spark 以 及 Scala 语言 ,英特尔 帮助 优酷 土豆 设计 出 具体 符合 业务 需求 的 解决 方 
案 , 并 协助 优酷 土豆 实现 了 该 方案 。 此 外 ,英特尔 还 给 优酷 土豆 的 大 数据 团队 进行 了 Scala 
语言 ,Spark 的 培训 等 。 


本 章 小 结 


本 章 介 绍 了 Spark 大 数据 处 理 框 架 。 通 过 本 章 的 学 习 , 了 解 Spark 的 概念 与 发 展现 状 ; 
掌握 Spark 有 哪些 优点 (对 比 Hadoop); 掌握 Spark 速度 比 Hadoop 快 的 原因 ; 掌握 Spark 
生态 系统 的 组 成 ;了解 Spark 生态 系统 中 的 Runtime, Spark SQL .MLlib .GraphX Spark 
Streaming 的 概念 与 应 用 ; 了 解 Spark 的 应 用 场景 与 应 用 Spark 的 成 功 案例 。 


习题 9 


一 、 填空 题 

1. Spark 大 数据 框架 适合 各 种 算法 和 交互 式 数据 分 析 , 能 够 提升 大 数据 处 理 
的 实时 性 和 准确 性 。 

2. 也 称 为 快 数据 ,与 Hadoop 的 传统 计算 方式 MapReduce 相 比 ,效率 至 少 提 
高 100 (Ë. 

语言 是 Spark 框架 的 开发 语言 ,是 一 种 类 似 Java 的 编程 语言 。 

. Spark 是 当前 流行 的 大 数据 处 理 框架 ,具有 快速 ,通用 、 简 单 等 特点 。 
. 与 Hadoop 相 比 ,Spark 真正 的 优势 在 于 
.Spark 使 用 代替 了 传统 HDFS 存储 中 间 结 果 。 
.Spark 整个 生态 系统 分 为 三 层 . 底 层 的 负责 集群 的 资源 管理 。 
.Spark 整个 生态 系统 分 为 三 层 . 底 层 的 负责 集群 的 数据 管理 。 
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9. Spark 整个 生态 系统 分 为 三 层 , 中 间 层 的 包括 Spark 的 最 基本 、 最 核心 的 功 
能 和 基本 分 布 式 算 子 。 
10. RDD(Resilient Distributed Datasets) E|! 
11. 对 开发 者 而 言 ， 可 以 看 作 是 Spark 中 的 一 个 对 象 , 它 本 身 运行 于 内 存 中 。 


它 是 一 个 大 的 集合 ,将 所 有 数据 都 加 载 到 内 存 中 ,方便 进行 多 次 重用 。 








12. RDD 提供 了 丰富 的 编程 接口 来 操作 数据 集合 ,一 种 是 操作 , 另 一 种 是 
Action 操作 。 

13. RDD 的 操作 返回 的 结果 把 RDD 持久 化 起 来 ,是 一 个 真正 触发 执行 的 过 程 。 

14. Spark 内 核 会 在 需要 计算 发 生 的 时 刻 绘 制 一 张 关 于 计算 路 径 的 ,简称 DAG。 

15, 作为 Spark 大 数据 框架 的 一 部 分 ,主要 用 于 结构 化 数据 处 理 和 对 Spark 
数据 执行 类 SQL 的 查询 。 

16. 是 一 个 分 布 式 机 器 学 习 库 , 即 在 Spark 平台 上 对 一 些 常用 的 机 器 学 习 算 
法 进行 了 分 布 式 实现 。 

17, 是 构建 于 Spark 上 的 图 计算 模型 , 它 利用 Spark 框架 提供 的 内 存 缓存 
RDD.DAG 和 基于 数据 依赖 的 容错 等 特性 ,实现 高 效 健壮 的 图 计算 框架 。 

18. 是 Spark 系统 中 用 于 处 理 流 数据 的 分 布 式 流 处 理 框架 ,扩展 了 Spark 流 
式 大 数据 处 理 能 力 。 

19. Spark Streaming 将 数据 流 以 时 间 片 为 单位 进行 分 割 形 成 ,能 够 以 相对 较 


小 的 时 间 间 隔 对 流 数 据 进行 处 理 。 
20. Spark Streaming 还 能 够 和 其 余 Spark 生态 的 模块 进行 无 缝 的 集成 ,以 便 联合 完 
基于 处 理 的 复杂 任务 。 
二 、 简 答题 
1. 简 述 Hadoop 的 框架 中 的 MapReduce 的 局 限 与 不 足 。 
2. 与 Hadoop 进行 比较 ,Spark 在 工作 方式 .处 理 速度 ,存储 方式 和 兼容 性 等 方面 有 哪 
些 优点 ? 
.从 数据 抽取 运算 模型 进行 分 解 , 说 明 Spark 速度 比 Hadoop 快 的 原因 。 
. 简 述 Spark 整个 生态 系统 分 为 哪 三 层 ? 
. 简 述 什么 是 RDD。 
。 简 述 什么 是 RDD 的 Transformation 操作 和 Action 操作 。 
. 通过 图 9-7 , 简 述 什么 是 DAG,DAG 是 如 何 生成 的 。 


R o m = w 


Gmm, s m e=, 
Ua. m -s- 


图 9-7 有 向 无 环 图 DAG 的 生成 











8. 简 述 什么 是 Spark SQL, 
9. 简 述 什么 是 GraphX 。 
10. 简 述 什么 是 Spark Streaming 的 数据 持久 化 、 离 散 化 和 批量 处 理 。 
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内 容 与 要 求 


云 计 算 与 大 数据 是 目前 IT 界 两 大 炙手可热 的 话题 。 云 计算 的 核心 是 数据 ,具体 
讲 就 是 能 实现 海量 、 多 类 型 .高 负载 .高 性 能 \ 低 成 本 需求 的 数据 管理 技术 。 

“ 云 计 算 简 介 ” 一 节 中 需要 了 解 云 计算 定义 ; 熟悉 云 计算 基本 特征 ; 掌握 云 计 算 服 
务 模式 相关 知识 。 

“ 云 计 算 核 心 技 术 ” 一 节 中 需要 熟悉 虚拟 化 技术 ; 了 解 常 见 的 虚拟 化 软件 及 其 应 用 ; 
熟悉 资源 池 化 技术 与 云 计算 资源 池 的 应 用 原理 ; 掌握 云 计 算 部 署 模式 及 相关 知识 。 

“ 云 计算 应 用 案例 ”一 节 中 需要 熟悉 并 掌握 常用 的 云 服 务 应 用 与 虚拟 仿真 软件 
VMware Workstation 的 使 用 方法 。 


重点 、 难 点 


本 章 重点 是 云 计算 的 基本 特征 、 服 务 模式 、 部 署 模式 与 常见 云 应 用 ,难点 是 云 计算 
的 虚拟 化 与 资源 池 化 技术 。 


大 数据 挖掘 处 理 需要 云 计算 作为 平台 .大 数据 涵盖 的 价值 和 规律 能 够 使 云 计算 与 行业 
应 用 相 结 合并 发 挥 更 大 的 作用 。 首 先 , 云 计算 将 计算 资源 作为 服务 支撑 大 数据 挖掘, 进而 大 
数据 可 以 为 实时 交互 的 海量 数据 查询 、 分 析 提 供 其 所 需 的 价值 与 信息 ; 其 次 , 云 计算 与 大 数 
据 的 结合 将 成 为 人 类 认识 事物 的 新 途径 。 由 此 可 知 ,大 数据 技术 需要 通过 云 计算 方法 来 
实现 。 
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10.1 云 计 算 简介 


从 广义 上 来 说 , 云 计算 是 通过 网 络 提供 可 伸缩 的 、 廉 价 的 分 布 式 计算 能 力 。 其 代表 了 以 
虚拟 化 技术 为 核心 、 以 低 成 本 为 目标 的 动态 可 扩展 网 络 应 用 基础 设施 ,是 最 具 代表 性 的 网 络 
计算 技术 与 模式 。 


10.1.1 云 计 算 


云 计算 是 以 美国 国家 标准 与 技术 研究 所 (National Institute of Standards and Technology ， 
NIST) 的 定义 为 代表 : 云 计算 是 一 种 用 于 对 可 配置 共享 资源 池 ( 网 络 、 服 务 器 、 存 储 、 应 用 和 
服务 ) ,通过 网 络 方便 的 、 按 需 获取 的 模型 , 它 以 最 少 的 管理 代价 或 以 最 少 的 服务 商 参 与 , 快 
速 地 部 署 与 发 布 。NIST 定义 的 云 计 算 架 构 具 有 3 种 服务 模式 、4 种 部 署 模式 与 5 个 关键 功 
能 ,如 图 10-1 所 示 。 














软件 即 服务 | | 平台 即 服务 | 基础 设施 即 服务 






























服务 模式 一 | 一 (SaaS) (PaaS) (laaS) 

| 按 需 自动 服务 | 
关键 功能 一 人 | 广泛 的 网 络 接 入 迅速 、 强 性 

| 资源 池 图 标准 服务 











KPT 自动 化 计算 
ail Web 应 用 分 布 式 计算 
Tm 面向 服务 


| anneni | 高 安全 性 






































图 10-1 NIST 的 云 计算 基本 架构 


从 技术 角度 来 看 , 云 计算 可 以 分 为 两 种 不 同 的 技术 方法 。 一 种 是 分 布 式 计算 与 存储 的 
技术 ,以 MapReduce 为 代表 ; 第 二 种 是 将 集中 的 资源 分 割 后 分 散 使 用 的 技术 , 即 实现 资源 
集约 与 分 配 的 技术 ,主要 有 两 类 ,一 类 是 虚拟 化 技术 .包括 对 计算 资源 ,网 络 资源 、 存 储 资源 
等 的 虚拟 化 ; 另 一 类 是 各 种 资源 的 精细 化 管理 技术 。 

对 于 云 计算 的 进一步 理解 ,可 以 认为 云 计 算 技 术 是 未 来 数字 社会 中 IT 的 主要 运营 方 
式 。 未 来 IT 世界 只 有 两 种 角色 : 云 的 提供 者 与 云 的 消费 者 ,前 者 像 发 电厂 ,后 者 像 用 电 者， 
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人 们 简单 地 打开 开关 ,就 可 以 方便 地 使 用 IT, 并 且 按 需 使 用 , 按 量 计 费 。 


10.1.2 云 计算 与 大 数据 的 关系 


云 计算 是 大 数据 分 析 与 处 理 的 一 种 重要 方法 , 云 计算 强调 的 是 计算 ,而 大 数据 则 是 计算 
的 对 象 。 如 果 数 据 是 财富 ,那么 大 数据 就 是 宝藏 , 云 计算 就 是 挖掘 和 利用 宝藏 的 利器 。 

云 计 算 以 数据 为 中 心 , 以 虚拟 化 技术 为 手段 来 整合 服务 器 ,存储 、 网 络 .应 用 等 在 内 的 各 
种 资源 ,形成 资源 池 并 实现 对 物理 设备 集中 管理 动态 调配 和 按 需 使 用 。 借 助 云 计算 的 力量 ， 
可 以 实现 对 大 数据 的 统一 管理 ,高效 流通 和 实时 分 析 ,挖掘 大 数据 的 价值 ,发 挥 大 数据 的 意义 。 

云 计算 为 大 数据 提供 了 有 力 的 工具 和 途径 ,大 数据 为 云 计 算 提 供 了 有 价值 的 用 武之 地 。 
将 云 计 算 和 大 数据 结合 ,人 们 就 可 以 利用 高 效 、 低 成 本 的 计算 资源 分 析 海量 数据 的 相关 性 ， 
快速 找到 共性 规律 ,加 速 人 们 对 于 客观 世界 有 关 规 律 的 认识 。 云 计算 和 大 数据 关系 密 不 可 
分 ,相辅相成 ,如 图 10-2 所 示 。 








分 布 式 数据 控 据 | 如 : Mahout 








分 布 式 处 理 ] 如 : MapReduce,JobKeeper 
分 布 式 数据 库 J 如 :HBase 数据 立方 


| 
| 
| 云 存 人 | 虚拟 化 
a 


l: HDFS,cStor 如 : VMware, OpenStack 





PaaS 














图 10-2 云 计算 与 大 数据 的 关系 


10.1.3 云 计 算 基本 特征 


云 计 算是 计算 机 技术 和 网 络 技 术 发 展 融合 的 产物 ,是 将 动态 的 、 易 扩展 且 被 虚拟 化 的 计 
算 资 源 通 过 互联 网 提供 的 一 种 服务 。 云 计算 的 核心 思想 是 将 大 量 用 网 络 连 接 的 计算 资源 进 
行 统一 管理 和 调度 .构成 一 个 计算 资源 池 , 根 据 用 户 需 求 提供 服务 。 云 计算 具有 以 下 特征 。 

(1) 强大 的 虚拟 化 能 力 。 在 云 计算 基础 设施 中 ,各 种 计算 资源 被 连接 在 一 起 ,形成 统一 
的 资源 池 , 动 态 地 部 署 并 分 配给 不 同 的 应 用 和 服务 ,满足 它们 在 不 同时 刻 的 需求 。 云 计算 支 
持 用 户 在 任意 位 置 、 使 用 各 种 终端 获取 应 用 服务 。 用 户 无 须 了 解 也 不 用 担心 应 用 运行 的 具 
体位 置 ,只 需 一 个 能 连接 网 络 的 终端 ,就 可 以 通过 网 络 服务 来 实现 所 需要 的 一 切 。 

(2) 高 可 扩展 性 。“ 云 "的 规模 可 以 动态 伸缩 ,以 满足 应 用 和 用 户 规模 不 断 增 长 的 需要 。 
随 着 用 户 对 云 计算 需求 的 不 断 变 化 ,系统 可 以 自动 地 进行 扩展 。 

(3) 按 需 服务 。“ 云 "是 一 个 庞大 的 资源 池 , 可 以 根据 用 户 的 需求 进行 定制 ,并 且 可 以 像 
自来水 、 电 煤气 那样 提供 计量 服务 。 

(4) 网 络 化 的 资源 接 入 。 基 于 云 计算 的 应 用 服务 是 通过 网 络 来 提供 的 ,在 “ 云 " 的 支撑 
下 ,可 以 构造 出 千变万化 的 应 用 ,并 通过 网 络 提供 给 最 终 用 户 , 网 络 技术 的 发 展 是 推动 云 计 
算 技术 的 首要 动力 。 

(5) 高 可 靠 性 。“ 云 ”通过 使 用 数据 多 副本 容错 、 计 算 节 点 可 互 换 等 方法 来 保障 服务 的 
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高 可 靠 性 。 
10.1.4 云 计算 服务 模式 


目前 , 云 计算 仍 处 于 初级 发 展 阶 段 ,各 类 厂商 正在 开发 不 同 的 云 计算 服务 ,包括 成 熟 的 
应 用 程序 、 存 储 服务 和 垃圾 邮件 过 滤 等 。 云 计算 以 其 基于 面向 服务 的 体系 结构 理念 和 技术 ， 
将 计算 资源 和 应 用 变 成 各 种 服务 ,可 以 说 云 服 务 即 一 切 皆 服务 。 
基础 设施 即 服务 (Infrastructure as a Service,IaaS) .平台 即 服务 (Platform as a Service, 
PaaS) ,软件 即 服务 (Software as a Service,SaaS) 是 云 计 算 的 3 种 应 用 服务 模式 。 云 计算 服 
务 体系 如 图 10-3 所 示 。 
l 4 





应 用 层 e 软件 即 服务 (SaaS) 








平台 层 | 一 一 一 | 平台 即 服务 (PaaS) 








基础 设施 层 —— 基础 设施 即 服务 (IaaS) 








虚拟 化 层 





硬件 























图 10-3 云 计算 服务 模式 


1. 软件 即 服 务 

SaaS 针对 的 是 终端 用 户 , 是 通过 互联 网 提供 软件 的 服务 模式 , 即 服 务 提供 商 将 应 用 软 
件 统一 部 署 在 其 服务 器 上 ,客户 可 以 根据 自己 的 实际 需求 ,通过 互联 网 向 服务 提供 商 订购 所 
需要 的 应 用 软件 服务 ,按照 订购 服务 数量 的 多 少 和 时 间 的 长 短 支付 费用 。 

SaaS 的 典型 应 用 包括 在 线 邮 件 服 务 、 网 络 会 议 . 网 络 传真 .在 线 杀毒 等 各 种 工具 型 服 
务 ,在线 客户 关系 管理 系统 ,在 线 人 力 资源 系统 、 在 线 项 目 管理 等 各 种 管理 型 服务 及 网 络 搜 
索 、 网 络 游戏 ,在 线 视频 等 娱乐 性 应 用 。SaaS 是 未 来 软件 业 的 发 展 趋势 ,目前 已 吸引 了 众多 
厂商 的 参与 ,包括 Microsoft 在 内 的 国外 各 大 软件 巨头 都 推出 了 自己 的 SaaS 应 用 ,用 友 、 金 
蝶 等 国内 软件 巨头 也 推出 了 自己 的 SaaS 应 用 。 

2. 平台 即 服务 

PaaS 针对 开发 者 ,把 开发 环境 作为 一 种 服务 来 提供 。PaaS 可 为 企业 或 个 人 提供 研发 
平台 ,并 提供 应 用 程序 开发 .数据库 ,应 用 服务 器 .试验 ,托管 及 应 用 服务 。 客 户 不 需要 管理 
或 者 控制 底层 的 云 基础 设施 (网 络 、 服 务 器 、 操 作 系统 ,存储 等 ) ,但 能 够 部 署 应 用 程序 及 配置 
应 用 程序 的 托管 环境 。 

PaaS 服务 模式 可 以 归 类 为 应 用 服务 器 .业务 能 力 接 人 业务 引擎 和 业务 开放 平台 。 
PaaS 服务 模式 向 下 根据 业务 需要 测算 基础 服务 能 力 . 调 用 硬件 资源 ; 向 上 提供 业务 调度 中 
心服 务 ,实时 监控 平台 的 各 种 资源 ,并 将 这 些 资源 通过 应 用 程序 编程 接口 (Application 
Programming Interface,API) 开 放 给 SaaS 用 户 。 目 前 Paas 的 典型 实例 有 Microsoft 的 
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Windows Azure 平台 .Facebook 的 开发 平台 等 。 

3. 基础 设施 服务 

IaaS 针对 的 是 开发 者 ,厂商 把 由 多 台 服 务 器 组 成 的 “云端 ?基础 设施 作为 计量 服务 提供 
给 客户 。IaaS 将 内 存 .IO 设备 .存储 和 计算 能 力 整合 成 一 个 虚拟 资源 池 ,为 客户 提供 存储 
资源 和 虚拟 化 服务 器 等 各 种 服务 。 这 种 形式 的 云 计算 把 开发 环境 作为 一 种 服务 来 提供 , 厂 
商 可 以 使 用 中 间 商 的 设备 来 开发 自己 的 程序 ,并 通过 互联 网 和 服务 器 传递 给 用 户 。 

IaaS 的 优点 是 客户 只 需要 具备 低 成 本 的 硬件 , 按 需 租用 相应 的 计算 能 力 和 存储 能 力 ， 
从 而 大 大 地 降低 了 客户 在 硬件 方面 的 支出 。 目 前 Microsoft、Amazon、 世 纪 互 联 和 其 他 一 些 
提供 存储 服务 和 虚拟 服务 器 的 提供 商 可 以 提供 这 种 基于 硬件 基础 的 IaaS 服务 ,他 们 通过 云 
计算 的 相关 技术 ,把 内 存 、I/O 设备 .存储 和 计算 能 力 集中 起 来 成 为 一 个 虚拟 的 资源 池 , 从 而 
为 最 终 用 户 和 SaaS, Paas 提供 商 提 供 服 务 。 

















10.2 云 计 算 核 心 技术 


随 着 云 计 算 与 大 数据 的 兴起 ,虚拟 化 与 资源 池 化 技术 已 经 成 为 云 计算 中 的 核心 ,是 可 以 
将 各 种 计算 及 存储 资源 充分 整合 和 高 效 利 用 的 关键 技术 。 它 们 通过 虚拟 化 手段 将 系统 中 各 
种 异 构 的 硬件 资源 转换 成 灵活 统一 的 虚拟 资源 池 , 进 而 形成 云 计算 基础 设施 ,为 上 层 云 计算 
平台 和 云 服 务 提供 相应 的 支撑 。 


10.2.1 虚拟 化 技术 


虚拟 化 是 指 计算 在 虚拟 的 基础 上 运行 。 虚 拟 化 技术 是 指 把 有 限 的 、 固 定 的 资源 根据 不 
同 需求 进行 重新 规划 ,以 达到 最 大 利用 率 的 技术 。 

云 计算 基 础 架构 广泛 地 采用 包括 计算 虚拟 化 ,存储 虚拟 化 、 网 络 虚 拟 化 等 虚拟 化 技术 ， 
并 通过 虚拟 化 层 ,屏蔽 了 硬件 层 自身 的 差异 和 复杂 度 , 向 上 呈现 为 标准 化 .可 灵活 扩展 和 收 
缩 ,弹性 的 虚拟 化 资源 池 , 如 图 10-4 所 示 。 
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图 10-4 云 计 算 虚 拟 化 部 署 架 构图 


第 10 章 云 计 算 与 大 数据 





相对 于 传统 IT 基础 架构 , 云 计算 通过 虚拟 化 整合 与 自动 化 ,应 用 系统 共享 基础 架构 资 
源 池 , 实 现 高 利用 率 、 高 可 用 性 \ 低 成 本 与 低能 耗 , 并 通过 云 平 台 层 的 自动 化 管理 ,构建 易于 
扩展 、 智 能 管理 的 云 服务 模式 。 云 计算 的 虚拟 化 技术 按 应 用 可 分 为 以 下 几 类 。 

1. 服务 器 虚拟 化 

服务 器 虚拟 化 是 指 将 虚拟 化 技术 应 用 于 服务 器 上 ,将 一 台 或 多 台 服 务 器 虚拟 化 为 若干 
服务 器 使 用 。 通 常 , 一 台 服 务 器 只 能 执行 一 个 任务 ,导致 服务 器 利用 率 低 下 。 采 用 服务 器 虚 
拟 化 技术 后 ,可 以 在 一 台 服 务 器 上 虚拟 出 多 个 虚拟 服务 器 ,每 个 虚拟 服务 器 运行 不 同 的 服 
务 , 这 样 便 可 提高 服务 器 的 利用 率 ,节省 物理 存储 空间 及 电能 。 

2. 桌面 虚拟 化 

桌面 虚拟 化 是 指 将 计算 机 的 终端 系统 (也 称 为 桌面 ) 进 行 虚拟 化 ,以 达到 桌面 使 用 的 安 
全 性 和 灵活 性 。 桌 面 虚拟 化 可 以 使 用 户 以 通过 任何 设备 ,在 任何 地 点 、 任 何 时 间 通 过 网 络 访 
问 属 于 个 人 的 桌面 系统 ,获得 与 传统 PC 一 致 的 用 户 体验 。 

3. 应 用 虚拟 化 

应 用 虚拟 化 是 指 将 各 种 应 用 发 布 在 服务 器 上 ,客户 通过 授权 之 后 就 可 以 通过 网 络 直接 
使 用 ,获得 如 同 在 本 地 运行 应 用 程序 一 样 的 体验 。 

4. 存储 虚拟 化 

存储 虚拟 化 是 将 整个 云 系 统 的 存储 资源 进行 统一 整合 管理 ,为 用 户 提供 一 个 统一 的 存 
储 空间 。 存 储 虚拟 化 可 以 以 最 高 的 效率 、 最 低 的 成 本 来 满足 各 类 不 同 应 用 在 性 能 和 容量 等 
方面 的 需求 。 

5. 网 络 虚拟 化 

网 络 虚拟 化 是 指 让 一 个 物理 网 络 支持 多 个 逻辑 网 络 ,虚拟 化 保留 了 网 络 设计 中 原 有 的 
层次 结构 数据 通道 和 所 能 提供 的 服务 .使 得 最 终 用 户 的 体验 和 独 享 物 理 网 络 一 样 ,同时 网 
络 虚拟 化 技术 还 可 以 高 效 地 利用 如 空间 、 能 源 、 设 备 容量 等 网 络 资源 。 


10.2.2 虚拟 化 软件 及 应 用 


虚拟 化 技术 是 云 计算 的 关键 技术 ,虚拟 化 平台 是 进一步 地 完成 云 计算 部 署 的 基础 。 主 
流 的 虚拟 化 软件 包括 EMC 公司 的 VMware vSphere、Microsoft 公司 的 Virtual PC Redhat 
公司 的 Red Hat Enterprise Virtualization 等 。 

1. VMware 

VMware 在 虚拟 化 和 云 计算 基础 架构 领域 占据 主导 地 位 和 最 大 的 市 场 份额 。VMware 
虚拟 化 产品 主要 有 服务 器 虚拟 化 产品 vSphere Standard( 标 准 版 ) .vSphere Enterprise( 企 业 
KO vSphere Enterprise Plus( 企 业 增强 版 ) 以 及 vSphere with Operations Management; 网 
络 虚拟 化 产品 NSX; 存储 虚拟 化 产品 VMware Virtual SAN; 桌面 虚拟 化 产品 Horizon, 
Fusion 和 Mirage, 


























2. Microsoft 
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Hyper-V 在 整合 和 虚拟 管理 方面 缩短 了 与 VMware 的 差距 。Microsoft 虚拟 化 产品 主要 有 
服务 器 虚拟 化 产品 Windows Server 2008(2012) Hyper-V、 桌 面 虚拟 化 产品 Virtual Desktop 
Infrastructure , Microsoft Virtual PC, Microsoft Enterprise Desktop Virtualization, W HH fE 
序 虚拟 化 产品 Microsoft Application Virtualization (App-V) .虚拟 化 管理 产品 Microsoft 
System Center Virtual Machine Manager。 

3. Red Hat 

Red Hat 使 用 开源 的 方法 提供 可 靠 和 高 性 能 的 云 .虚拟 化 ,存储 、Linux 和 中 间 件 技术 。 
Red Hat 在 2008 年 收购 Qumranet 公司 ,获得 内 核 虚 拟 机 (Kernel-based Virtual Machine, 
KVMD) 管 理 程序 ,确定 虚拟 化 方向 。Red Hat 虚拟 化 产品 主要 有 服务 器 和 桌面 虚拟 化 
RHEV 。 

4. 3 种 虚拟 化 软件 的 对 比 

虚拟 化 软件 的 功能 直接 影响 云 计算 平台 的 部 署 , 以 此 对 虚拟 化 软件 核心 功能 进行 了 比 
较 , 如 表 10-1 所 示 。 

表 10-1 虚拟 化 软件 功能 对 比 








VMware Windows Server Red Hat Enterprise 
kewa vSphere 6. 0 2012 Hyper-V Virtualization 
最 大 虚拟 CPU | 4096 2048 无 限制 
最 大 虚拟 内 存 4TB 1TB 4TB 





Windows 2003, 2008, 2012 | Windows Server 2003, 2008, 
( 仅 某 些 SPs 版 本 ) Windows | 2010,2012, Windows XP. 7.8, 
XP, Vista, 7, 8, Red Hat | Red Hat Enterprise Linux 3,4, 


Windows, Linux, 


客户 机 支持 的 操 | UNIX x86 和 x64 


























作 系 统 Windows XP, N . . g 

TTi Enterprise Linux 5 +, Red | 5,6,7, Linux Enterprise Server 
u 464 Hat Enterprise Linux 6 + 10,11, 其 他 开源 操作 系统 

虚拟 机 实时 迁移 Y Y 

支持 集群 系统 Y Y Y 

省 电 模 式 YV N Y 

负载 均衡 调度 x Y Y 

共享 资源 池 Y Y x 

热 添 加 虚拟 机 网 
y Y Y 

卡 \ 磁 盘 

热 添 加 虚拟 处 理 i = 


器 vcpu #l RAM 











10.2.3 资源 池 化 技术 


资源 池 是 指 云 计 算数 据 中 心中 所 涉及 到 的 各 种 硬件 和 软件 的 集合 。 云 计算 把 所 有 计算 
的 资源 整合 成 计算 资源 池 , 所 有 存储 的 资源 整合 成 存储 资源 池 , 把 全 部 IT 资源 都 变 成 一 个 
个 池子 ,再 基于 这 些 基础 架构 的 资源 池上 面 去 建设 应 用 ,以 服务 的 方式 去 交付 资源 。 

例如 ,广州 市 通过 云 平台 形成 面向 民生 的 公共 数据 资源 池 , 并 通过 开通 微 信 “ 城 市 服务 ” 
功能 ,将 医疗 、 交 管 . 交 通 、 公 安 户 政 、 出 入 境 、 缴 费 、 教 育 、 公 积 金 等 17 项 民生 服务 汇聚 到 统 
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一 的 平台 上 ,市 民 通过 一 个 入 口 即 可 找到 所 需 服务 .诸如 户口 办 理 等 基础 服务 也 无 须 多 次 往 
返 办 事 窗 口 , 手 机 上 即 可 一 次 性 完结 。 由 此 可 见 , 具 有 大 数据 分 析 能 力 的 平台 既 可 以 基于 数 
据 开 发 更 多 的 民生 类 应 用 ,又 可 以 将 采集 到 的 数据 开放 给 公共 数据 资源 池 , 进 而 形成 积极 利 
用 大 数据 的 氛围 和 良性 循环 。 

1. 云 计算 资源 池 的 应 用 原理 

云 计算 资源 池 是 通过 虚拟 化 技术 ,将 IT 支撑 系统 的 设备 组 成 资源 池 系 统 , 通 过 IT 软 
硬件 厂商 提供 的 管理 工具 、 协 议和 开放 接口 ,实现 对 资源 池 中 各 种 资源 及 设备 的 管理 ,并 完 
成 资源 部 署 . 配 置 .调度 等 操作 任务 。 云 计算 资源 池 的 结构 如 图 10-5 所 示 。 
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图 10-5 云 计算 资源 池 结 构图 


单 节点 的 云 计算 资源 池 范围 通常 为 一 个 物理 节点 ,包含 的 IT 资源 分 布 在 距离 不 超过 
数 百 米 的 同一 个 机 楼 内 ; 跨 物 理 地 域 的 跨 域 云 资源 池 系统 的 范围 可 以 是 一 个 物理 地 区 ， 
包含 的 IT 资源 可 分 布 于 跨 地 域 的 不 同城 市 ,内 部 可 划分 多 个 逻辑 数据 中 心 与 逻辑 次 
源 池 。 

2. 云 计算 资源 池 的 规划 原则 

云 计算 资源 池 的 规划 原则 包括 功能 分 类 原则 容量 匹配 原则 和 一 致 化 原则 。 

1) 功能 分 类 原则 

功能 分 类 原则 是 指 在 进行 资源 池 规划 时 ,根据 对 管理 精细 化 程度 的 要 求 , 按 照 资源 能 力 
的 不 同属 性 划分 或 定义 不 同 的 资源 池 。 

如 在 私有 云 中 ,通常 会 定义 IP 地 址 资源 池 , 以 便 将 可 用 的 IP 地 址 分 配给 特定 业务 应 
用 ,但 通常 不 会 将 菜 个 服务 器 虚拟 化 集群 的 网 络 接口 带宽 定义 为 带宽 资源 池 , 因 为 在 私有 云 
中 通常 不 会 限制 某 个 业务 应 用 所 占用 的 网 络 带 宽 ; 而 在 公有 云 中 ,就 需要 定义 带宽 资源 池 ， 
以 便 将 带宽 分 配给 特定 的 虚拟 机 使 用 ,从 而 避免 影响 其 他 租户 的 服务 质量 。 

2) 容量 匹配 原则 

容量 匹配 原则 是 指 在 规划 资源 池 时 注意 不 同 功能 资源 池 间 容量 的 相互 匹配 。 
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如 某 个 由 20 台 物 理 服务 器 构成 的 虚拟 化 计算 资源 池 , 如 果 按 照 7: 1 的 虚拟 化 整合 比 
进行 估算 ,可 支持 140 台 虚 拟 服务 器 运行 ,对 应 IP 地 址 资源 池 则 需要 140 个 可 用 IP 地 址 ; 
如 果 每 台 服 务 器 的 平均 存储 空间 200GB, 则 对 应 的 共享 存储 资源 池 可 用 容量 应 为 28TB。 
过 多 或 过 少 的 匹配 资源 会 造成 资源 的 浪费 或 短缺 。 

3) 一 致 化 原则 

一 致 化 原则 是 指 在 规划 资源 池 时 ,对 于 构成 某 个 资源 池 或 某 类 资源 池 的 构成 组 件 应 尽 
量 一 致 化 ,以 减少 构成 组 件 管理 能 力 上 的 差异 ,降低 管理 工作 的 复杂 程度 。 

资源 池 是 数据 中 心 广泛 使 用 虚拟 化 技术 后 新 出 现 的 管理 对 象 , 原 有 的 管理 对 象 不 但 没 
有 减少 ,而 且 由 于 虚拟 化 实例 构建 的 便捷 性 ,导致 虚拟 化 实例 的 数量 爆发 性 增长 。 应 用 一 致 
化 原则 ,可 以 减少 资源 池 构 成 组 件 的 类 型 ,保证 系统 整体 可 用 性 的 前 提 下 ,实现 运营 维护 流 
程 的 标准 化 和 简单 化 ; 降低 资源 池 组 件 管理 接口 的 复杂 程度 ,有 利于 资源 分 配 管 理 和 资源 
池 构 建 管理 自动 化 工具 的 实现 。 


10.2.4 云 计 算 部 署 模 式 


云 计算 按照 其 资源 交付 的 范围 ,有 3 种 部 署 模式 , 即 公有 云 、 私 有 云 和 混合 云 , 如 图 10-6 
所 示 。 


企业 外 部 /第 三 方 机 构 





企业 内 部 
图 10-6 云 计算 部 署 模式 


1. 公有 云 

公有 云 是 指 为 外 部 客户 提供 服务 的 云 。 它 所 有 的 服务 是 供 别 人 使 用 的 ,而 不 是 自己 
用 的 。 目 前 典型 的 公有 云 有 Microsoft 的 Windows Azure Platform, Amazon 的 AWS, 
Salesforce. com 及 国内 的 阿里 巴巴 、 用 友 伟 库 等 。 

对 于 使 用 者 而 言 ,公有 云 的 最 大 优点 是 ,其 所 应 用 的 程序 、 服 务 及 相关 数据 都 存放 在 公 
共 云 的 提供 者 处 ,自己 无 须 做 相应 的 投资 和 建设 。 目 前 最 大 的 问题 是 ,由 于 数据 不 存储 在 自 
己 的 数据 中 心 , 其 安全 性 存在 一 定 风险 ; 同时 .公有 云 的 可 用 性 不 受 使 用 者 控制 ,这 方面 也 
存在 一 定 的 不 确定 性 。 

2. MAR 

私有 云 是 指 企业 自己 使 用 的 云 。 它 所 有 的 服务 不 是 供 别 人 使 用 的 ,而 是 供 自己 内 部 人 
员 或 分 支 机 构 使 用 的 。 私 有 云 的 部 署 比 较 适 合 于 有 众多 分 支 机 构 的 大 型 企业 或 政府 部 门 。 
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随 着 这 些 大 型 企业 数据 中 心 的 集中 化 ,私有 云 将 会 成 为 它们 部 署 IT 系统 的 主流 模式 。 

相对 于 公共 云 ,私有 云 部 署 在 企业 内 部 ,因此 其 数据 安全 性 、 系 统 可 用 性 都 可 由 企业 控 
制 。 但 其 缺点 是 投资 较 大 ,尤其 是 一 次 性 的 建设 投资 较 大 。 

3. 混合 云 

混合 云 是 指 供 自己 和 客户 共同 使 用 的 云 。 它 所 提供 的 服务 既 可 以 供 别 人 使 用 ,也 可 以 
供 自己 使 用 。 相 比较 而 言 ,混合 云 的 部 署 方式 对 提供 者 的 要 求 较 高 。 

云 计算 代表 着 未 来 信息 技术 的 发 展 方向 ,在 理念 和 模式 上 给 传统 的 软 硬 件 行业 带 来 了 
巨大 的 变革 。 随 着 云 计算 技术 的 发 展 ,其 应 用 服务 模式 也 将 不 断 地 丰富 和 发 展 ,将 为 人 们 提 
供 更 加 便捷 的 服务 ,进一步 满足 人 们 的 需要 。 


10.3 云 计 算 应 用 案例 


在 云 计算 技术 的 驱动 下 , 云 计算 的 发 展 及 其 所 提供 的 社会 化 服务 ,为 信息 化 改革 提供 了 
强大 的 技术 支撑 。 本 节 内 容 中 对 常用 的 云 计 算 应 用 案例 进行 了 介绍 。 

【 例 10-1) 申请 百度 网 盘 : 百度 网 盘 是 一 项 云 存储 服务 ,首次 注册 即 有 机 会 获得 15GB 
的 空间 ,用 户 可 以 轻松 把 自己 的 文件 上 传 到 网 盘 上 ,并 可 以 跨 终 端 随时 随地 查看 和 分 享 。 


操作 步骤 如 下 。 
(1) 输入 网 址 “http://pan. baidu. com/”, 进 入 “百度 云 网 盘 ” 网 站 ,如 图 10-7 所 示 。 
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图 10-7 “百度 云 网 盘 ? 网 站 


(2) 进入 百度 网 盘 登 录 界 面 ,用 百度 、 微 博 或 QQ 账号 登录 。 也 可 以 单 击 下 面 的 “立即 
注册 百度 账号 ”进行 注册 ,如 图 10-8 所 示 。 

(3) 注册 后 ,就 获得 了 免费 的 15GB 的 百度 网 盘 , 可 以 开始 使 用 了 ,如 图 10-9 所 示 。 

【 例 10-2〗 接 入 网 易 云 信 : 网 易 云 信和 是 一 项 基于 Paas 的 即时 通讯 (Instant 
Messaging,IM) 云 服务 .开发 者 通过 调用 云 信 软件 开发 工具 包 (Software Development Kit, 
SDK) 和 云端 API 的 方法 可 以 快速 地 接 入 IM 即时 通讯 功能 。 
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图 10-9 


操作 步 又 如 下 。 
(1) 输入 网 址 *http: 
云 信和 账号 ,申请 IM 云 服 务 的 免费 试用 .如 图 10-10 所 示 。 


Q 网 易 云 信 
真正 稳定 的 1IM 云 服务 


图 10-10 


百度 网 盘 使 用 界面 


netease. im”, 进入“ 网易 云 信 ? 网 站 ,输入 邮箱 地 址 后 可 以 注册 


注册 云 信 账 号 





注册 “网 易 云 信 ” 
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(2) 注册 号 可 以 登录 管理 后 台 界面 , 单 击 左 侧 导 航 条 上 的 “创建 应 用 ”, 并 选择 应 用 类 
型 ,如 图 10-11 所 示 。 


























maxw -20 ms susan mem 
图 10-11 “创建 应 用 ”窗口 


(3) 创建 应 用 后 ,可 在 IM 基础 功能 下 载 中 选择 SDK 类 型 ,进行 APP 即时 通讯 功能 的 
开发 工作 ,如 图 10-12 所 示 。 

【 例 10-3] 注册 华为 企业 云 : 华为 企业 云 提供 包括 云 主 机 \ 云 托管 . 云 存储 等 一 站 式 云 
计算 基础 设施 服务 。 

操作 步 又 如 下 。 

(1) 输入 网 址 *http:// www. hwclouds. com”. 进 入 "华为 企业 云 ? 网 站 , 单 击 界面 左上 
角 注 册 按钮 ,开始 用 户 注册 .如 图 10-13 所 示 。 

(2) 单 击 “0 元 免费 体验 "图标 , 在 弹出 的 4 种 云 服务 器 套餐 列表 中 进行 选择 .如 图 10-14 
所 示 。 
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图 10-13 华为 企业 云 注册 
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图 10-14 申请 华为 云 服务 器 
本 章 小 结 


云 计算 是 引领 信息 社会 创新 的 关键 战略 性 技术 手段 。 云 计算 的 普及 与 运用 ,将 引发 未 
来 新 一 代 信 息 技术 变革 。 云 计算 将 改变 IT 产业 ,也 会 深刻 地 改变 人 们 工作 和 生活 的 方式 。 
通过 本 章 的 学 习 , 希 望 读 者 在 了 解 云 计算 的 概念 ,熟悉 云 计算 关键 技术 与 安全 知识 的 基础 
上 ,对 自己 的 工作 与 生活 有 所 启发 和 帮助 。 





习题 10 


一 、 填空 题 
1. 云 计算 服务 体系 中 所 提 到 的 IaaS 是 š 
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. PaaS 针对 开发 者 ,把 作为 一 种 服务 来 提供 。 
. 虚拟 化 是 指 计算 在 的 基础 上 运行 。 
. 网 络 虚拟 化 是 指 让 一 个 物理 网 络 支持 多 个 
云 计 算 资 源 池 的 规划 原则 包括 功能 分 类 原则 ,容量 匹配 原则 和 š 
云 计 算 按 照 其 资源 交付 的 范围 ,有 3 种 部 署 模式 , 即 公 有 云 .私有 云 和 
7. 云 计算 是 一 种 用 于 对 可 配置 共享 资源 池 ( 网 络 . 服 务 器 ,存储 应 用 和 服务 ), 通 过 网 
络 方便 的 、 的 模型 。 
8. 云 计算 以 数据 为 中 心 ,以 为 手段 来 整合 服务 器 、 存 储 、 网 络 、 应 用 等 在 内 的 
各 种 资源 。 
9. SaaS 针对 的 是 ,是 通过 互联 网 提供 软件 的 服务 模式 。 
10. 资源 池 是 指 云 计 算数 据 中 心中 所 涉及 到 的 各 种 的 集合 。 
二 、 简 答题 
. 简 述 美国 国家 标准 与 技术 研究 所 NIST 对 云 计算 的 定义 。 
. 简 述 云 计 算 的 基本 特征 。 
。 简 述 laaS.PaaS 和 SaaS 的 含义 。 
. 简 述 云 计 算 的 部 署 模式 。 
. 简 述 云 计算 中 的 虚拟 化 技术 。 
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典型 大 数据 解决 方案 


£ ss 


内 容 与 要 求 


大 数据 技术 的 变革 已 经 让 不 少 行业 体验 到 了 更 为 智能 、 更 为 便捷 的 智慧 生活 。 本 
章 主 要 对 国内 外 典型 的 大 数据 解决 方案 及 相关 案例 进行 介绍 ,使 读者 更 好 地 了 解 大 数 
据 技 术 的 实际 应 用 。 

“Intel 大 数据 "一 节 主 要 介绍 Intel 大 数据 解决 方案 Intel Hadoop 与 开源 Hadoop 
的 比较 ,以 及 在 Intel 大 数据 解决 方案 下 的 典型 案例 一 一 中 国 移动 广东 公司 详 单 、 账 单 
查询 系统 。 

“百度 大 数据 ”一 节 主 要 介绍 作为 搜索 引擎 网 站 、 利 用 其 自身 优势 的 大 数据 解决 方 
案 , 以 及 百度 大 数据 下 提供 的 多 种 大 数据 分 析 案 例 。 详 细 介 绍 百度 预测 中 景点 预测 、 欧 
洲 赛事 预测 的 具体 使 用 方法 及 相应 分 析 结 果 的 查看 方法 。 

“腾讯 大 数据 ”一 节 主 要 介绍 腾讯 大 数据 解决 方案 及 其 Spark 应 用 的 典型 案例 
FA 


重点 、 难 点 


本 章 重点 是 了 解 各 种 大 数据 解决 方案 及 相关 案例 ,难点 是 掌握 已 经 存在 的 大 数据 
具体 案例 的 应 用 方法 。 








随 着 大 数据 技术 的 发 展 ,大 数据 的 价值 已 经 被 认可 ,在 国外 ,大 数据 的 发 展 为 大 型 的 传 
统 IT 公司 提出 了 新 的 发 展 课题 ,包括 Microsoft, IBM, Oracle 在 内 的 拥有 主流 数据 库 技术 
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的 公司 已 经 各 自发 布 了 明确 的 大 数据 解决 方案 ,甚至 连 Intel 这 样 的 主要 研发 计算 机 硬件 的 
公司 也 参与 到 了 大 数据 技术 发 展 中 。 在 国内 ,以 百度 .腾讯 .淘宝 等 为 代表 的 互联 网 公司 已 
经 建立 了 各 自 的 大 数据 平台 。 本 章 将 对 Intel ,百度 和 腾讯 的 大 数据 解决 方案 及 典型 案例 进 
行 介绍 。 


11.1 Intel 大 数据 


11.1.1 Intel 大 数据 解决 方案 


虽然 Hadoop 并 不 可 以 作为 大 数据 的 代名词 ,但 当 提 到 大 数据 架构 时 ,人 们 还 是 会 首先 
想到 Apache Hadoop, fE 2012 年 7 月 ,Intel 对 外 发 布 了 自己 的 Hadoop 商业 发 行 版 (Intel 
Hadoop Distribution) „Intel 也 是 大 型 大 数据 厂商 中 唯一 拥有 自行 发 行 版 Hadoop 的 公司 。 

1. 解决 方案 

Intel Hadoop 发 行 版 包含 了 有 关 大 数据 的 所 有 分 析 、 集 成 及 开发 组 件 , 并 针对 不 同 组 合 
之 间 进 行 了 更 加 深入 的 优化 。 同 时 ,Intel Hadoop 发 行 版 还 添加 了 Intel Hadoop 管理 器 
(Intel Hadoop Manager) 。 该 管理 器 从 整个 系统 的 安装 .部署 到 配置 与 监控 过 程 ,提供 了 对 

台 的 全 方位 管理 ,如 图 11-1 所 示 。 


Intel Hadoop Manager 





( "== ) soo ) 
A 
= 
š 
Zookeeper 


图 11-1 Intel 大 数据 解决 方案 


Intel 大 数据 解决 方案 中 的 各 部 分 具体 功能 如 下 。 
(1) HDFS: HDFS 作为 Hadoop 分 布 式 文件 系统 ,是 运行 在 通用 硬件 上 的 分 布 式 文件 


(2) HBase: HBase 是 一 个 面向 列 的 .实时 的 、 分 布 式 数 据 库 ,但 不 是 一 个 关系 型 数 
据 库 。 

(3) MapReduce; MapReduce 是 一 个 高 性 能 的 批 处 理 分 布 式 计算 框架 ,用 来 对 海量 数 
据 进行 并 行 处 理 和 分 析 。 


(4) Hive: Hive 是 建立 在 Hadoop 之 上 的 数据 仓库 架构 。Hive 采用 HDFS 进行 数据 
存储 ,并 利用 MapReduce 框架 进行 数据 操作 。 

(5) Pig: Pig 是 一 个 基于 Hadoop 并 运用 MapReduce 和 HDFS 实现 大 规模 数据 分 析 的 
平台 ,Pig 为 海量 数据 的 并 行 处 理 提供 了 操作 及 编程 实现 的 接口 。 
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(6) Mahout: Mahout 是 一 套 具 有 可 扩充 能 力 的 机 器 学 习 类 库 ,提供 了 机 器 学 习 框 架 。 

(7) Sqoop: Sqoop 是 一 个 可 扩展 的 机 器 学 习 类 库 , 与 Hadoop 结合 后 ,Sqoop 可 以 提供 
分 布 式 数据 挖掘 功能 ,并 且 是 Hadoop 和 关系 型 数据 库 之 间 大 量 传输 数据 的 工具 。 

(8) Flume; Flume 是 一 个 高 可 用 、 高 可 靠 性 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 。 

(9) Zookeeper: Zookeeper 是 Hadoop 和 HBase 的 重要 组 件 ,为 分 布 式 应 用 程序 提供 
了 协调 服务 包括 系统 配置 维护 、 命 名 服务 和 同步 服务 等 。 


2. 优势 


Intel 的 Hadoop 发 行 版 针对 现 有 实际 案例 中 出 现 问题 进行 了 大 量 的 改进 和 优化 ,这 些 
改进 和 优化 弥补 了 开源 Hadoop 在 实际 案例 中 的 缺陷 和 不 足 , 并 且 提 升 了 性 能 ,具体 如 
K 11-1 所 示 。 同 时 ,基于 Intel 在 云 计算 研发 上 的 经 验 积累 ,对 实际 案例 解决 提供 了 从 项 目 
规划 到 实施 各 阶段 专业 的 咨询 服务 ,因此 ,Intel 大 数据 解决 方案 更 易于 构建 高 可 扩展 及 高 


性 能 的 分 布 式 系统 。 


表 11-1 Intel Hadoop 与 开源 Hadoop 比较 


Intel Hadoop 


开源 Hadoop 





针对 HDFS 的 DataNode 读 取 选取 提供 高 级 均衡 
算法 


简单 均衡 算法 ,容易 在 慢 速 服务 器 或 热点 服务 器 
上 产生 读 写 眶 颈 





根据 读 请 求 并 发 程度 动态 增加 热点 数据 的 复制 倍 
数 ,提高 MapReduce 任务 扩展 性 


无 法 自动 扩充 倍数 功能 ,在 集中 读 取 时 扩展 性 不 
强 ,存在 性 能 瓶颈 





为 HDFS 的 NameNode 提供 双 机 热 备 方案 ,提高 可 
靠 性 


NameNode 是 系统 的 单 点 破损 点 ,一 旦 失败 系统 
将 无 法 读 写 





实现 跨 区 域 数据 中 心 超级 大 表 , 用 户 应 用 可 实现 位 
置 透 明 的 数据 读 写 访问 和 全 局 汇总 统计 


无 此 功能 ,无 法 进行 跨 数据 中 心 部 署 





可 将 HBase 表 复 制 到 异地 集群 ,并 提供 单 向 、 双 向 











复制 功能 ,实现 异地 容 灾 wauu * 
基于 HBase 的 分 布 式 聚合 函数 ,效率 比 传统 方式 提 

高 10 倍 以 上 TRNA 

实现 对 HBase 的 不 同 表 的 复制 份 数 进行 精细 控制 “| 无 此 功能 


11.1.2 Intel 大 数据 相关 案例 


与 许多 国家 一 样 , 随 着 移动 设备 ,快速 4G 连接 ,自助 服务 技术 的 快速 发 展 ,账户 相关 信 
息 查 询 服务 日 益 受到 用 户 的 青睐 ,因此 中 国 移动 广东 公司 为 用 户 提供 了 网 络 详 单 .账单 查询 


系统 。 该 系统 的 原 有 解决 方案 存在 以 下 问题 。 


(1) 计 费 系统 维护 成 本 高 .使 计 费 业务 单位 的 盈利 能 力 减弱 。 

(2) 高 科技 个 性 化 的 用 户 支 持 模 式 不 可 扩展 .无 法 应 对 爆炸 性 的 用 户 需 求 增长 。 

(3) 数据 库 解决 方案 无 法 满足 存储 规模 和 实时 查询 要 求 ,无 法 为 用 户 提供 满意 的 服务 。 
针对 以 上 问题 ,Intel 提供 了 Intel Hadoop 和 至 强 TM5600 处 理 器 解决 方案 ,如 图 11-2 


所 示 。 
新 的 方案 解决 了 以 下 问题 。 


(1) 优化 硬件 性 能 ,以 处 理 大 数据 。 使 用 专 为 Hadoop 软件 而 优化 的 至 强 TM5600 系 
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客户 自助 服务 计 费 请 求 






| 


p. 


Els. Es 


Hadoop* 


图 11-2 Intel 基于 大 数据 量 优化 的 软 硬 件 解决 方案 


详 单 查询 系统 


列 通用 计算 平台 取代 原 有 平台 ,降低 总 拥有 成 本 及 提高 性 能 。 

(2) 基于 Hadoop 的 实时 分 析 。 采 用 Intel Hadoop 发 行 版 来 消除 数据 访问 瓶颈 ,并 发 
现 用 户 使 用 习惯 ,开展 更 有 针对 性 的 营销 和 促销 活动 。 

(3) 利用 Hadoop 布 式 数据 库 (HBase) 扩 展 存 储 。Intel Hadoop 发 行 版 中 增强 了 
HBase 的 功能 ,可 以 跨 节 点 自动 分 割 数据 表 , 降 低 存储 扩展 成 本 。 

Intel 基于 大 数据 量 优化 的 软 硬 件 解 决 方案 使 中 国 移动 广东 公司 的 个 人 用 户 能 够 查询 
并 在 线 支付 话费 ,准确 实时 查询 6 个 月 内 的 电话 详 单 ,账单 明细 检索 查询 速度 是 300 000 份 
账单 / 秒 , 账 单 插入 速度 是 800 000 份 账单 / 秒 , 目 前 每 月 无 缝 处 理 30Tb 的 用 户 计 费 数据 。 
查询 性 能 提高 了 30 倍 , 从 而 大 大 地 提高 了 新 系统 的 处 理性 能 。 中 国 移动 广东 公司 的 话费 查 
询 网 址 为 "http://gd. 10086. cn/service/”。 

















11.2 百度 大 数据 


11.2.1 百度 大 数据 引擎 


百度 大 数据 拥有 EB 级 别 的 超大 数据 存储 和 管理 规模 ,数据 计算 能 力 达 到 100PB/ 天 ， 
响应 速度 达到 了 毫秒 级 。 为 了 充分 地 发 掘 和 利用 大 数据 的 价值 .向 外 界 提供 大 数据 存储 、 分 
析 及 挖掘 的 技术 能 力 , 百 度 推 出 了 百度 大 数据 引擎 .这 也 是 全 球 首 个 开放 大 数据 引擎 。 如 
图 11-3 所 示 ,百度 大 数据 引擎 主要 包含 开放 云 .数据 工厂 和 百度 大 脑 三 大 组 件 。 
行业 应 用 
U 
TSS 数据 T 广 | 开放 去 


百度 行业 
数据 数据 


图 11-3 百度 大 数据 引擎 
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百度 大 数据 引擎 中 三 大 组 件 的 具体 功能 如 下 。 

(1) 开放 云 可 以 将 企业 原本 价值 密度 低 、 结 构 多 样 的 小 数据 汇聚 成 可 虚拟 化 、 可 检索 的 
大 数据 ,解决 数据 存储 和 计算 瓶颈 。 

D 数据 工厂 实现 数据 加 工 、 处 理 和 检索 ,把 数据 关联 起 来 ,从 中 分 析出 所 需要 的 价值 。 

(3) 百度 大 脑 是 建立 在 百度 深度 学 习 和 大 规模 机 器 学 习 基 础 上 ,最 终 实现 更 具 前 上 脆性 
的 智能 数据 分 析 及 预测 功能 ,以 实现 数据 智能 .支持 科学 决策 与 创造 。 

这 三 大 组 件 作 为 三 级 开放 平台 支撑 百度 核心 业务 及 其 拓展 业务 ,并 作为 独立 或 整体 的 
开放 平台 ,给 各 行 各 业 提 供 支持 和 服务 。 


11.2.2 百度 大 数据 十 平台 


百度 开放 数据 具有 海量 数据 积累 、 目 标 用 户 分 析 、 前 沿 模型 算法 和 高 效 计算 能 力 四 大 优 
势 。 利 用 积累 已 久 的 海量 数据 和 技术 ,百度 于 2015 年 9 月 正式 发 布 百度 大 数据 十 平台 
(http://bdp. baidu. com/) ,百度 大 数据 十 平台 具体 组 成 如 图 11-4 所 示 。 




























































































020 零售 旅游 房地产 金融 保险 
大 数据 + 平台 = 
行业 营销 客 群 开放 操作 店铺 
洞察 决策 分 析 FË 引擎 分 析 
智能 模型 营销 模型 预测 模型 | | 
用 户 洞察 立体 画像 描绘 线 上 线 下 分 析 | 行为 预测 
数据 融合 百度 数据 行业 数据 


图 11-4 百度 大 数据 十 平台 


在 图 中 可 以 看 到 百度 大 数据 十 平台 提供 了 多 个 产品 服务 组 件 : 行业 洞察 .营销 决策 、 客 
群 分 析 、 开 放 平台 、 店 铺 分 析 等 ,并 开放 了 六 大 行业 ; 020, FE 旅游 、 房 地产、 金融、 保险 ， 
以 实现 大 数据 应 用 的 落地 和 突破 。 百 度 大 数据 十 平台 基于 海量 数据 积累 ,实现 行业 趋势 洞 
察 、 客 群 精准 触 达 、 科 学 营销 决策 .风险 危机 防 控 等 核心 价值 。 


11.2.3 相关 应 用 


1. 百度 预测 

百度 预测 (http://trends. baidu. comy/) 是 基于 海量 的 数据 处 理 能 力 , 利 用 机 器 学 习 、 深 
度 学 习 等 手段 建立 模型 ,来 实现 公众 生活 的 预测 业务 。 目 前 ,在 百度 预测 产品 中 已 经 推出 了 
景点 舒适 度 预 测 .高考 预测 .世界杯 预 测 等 服务 。 

以 世界 杯 预测 为 例 ,在 2014 年 巴西 世界 杯 的 四 分 之 一 决赛 前 ,百度 .谷歌 .微软 和 高 盛 
分 别 对 四 强 结果 进行 了 预测 ,结果 显示 : 百度 、 微 软 结果 预测 完全 正确 ,而 谷歌 则 预测 正确 3 
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支 晋 级 球 队 ; 在 小 组 赛 阶段 的 预测 ， iasi 微软 、 高 盛 的 准确 率 也 低 于 百 
无 论 是 小 组 赛 还 是 淘汰 赛 ,百度 的 世界 杯 结 果 预 测 中 均 领 先 于 其 他 公司 。 最 
预测 了 德国 队 夺冠 .如 图 11-5 所 示 。 


胜率 胜率 we. 
IRES LETERAN 
德国 59% 41% 阿根廷 德国 1:0 阿 根 廷 


图 11-5 百度 2014 年 世界 杯 预 测 








度 。 总 体 来 看 ， 
终 , 百 度 又 成 功 




















2. 疾病 预测 

百度 与 中 国 疾 病 预 防 控制 中 心 (Centers for Disease Control, CDC) 合 作 开 发 的 疾病 预 
测 产品 ,基于 对 网 民 每 日 更 新 的 互联 网 搜索 的 分 析 、 建 模 , 实 时 反馈 流感 ,手足 口 、 性 病 、 艾 滋 
病 等 传染 病 , 糖 尿 病 、 高 血压 、 肺 净 腺 流行 病 的 爆发 数据 ,并 预测 疾病 流行 趋势 ,通过 
大 数据 分 析 能 力 实现 人 群 疾病 分 布 关联 分 析 等 ,为 国家 疾病 控制 机 构 传统 监测 体系 提供 了 
有 力 的 补充 。 

3. 百度 迁徙 

百度 迁徙 是 利用 百度 地 图 的 基于 地 理 位 置 的 服务 (Location Based Services,LBS) 开 放 
平台 、 百 度 XR ,对 其 拥有 的 LBS 大 数据 进行 计算 分 析 , 并 采用 创新 的 可 视 化 呈现 方式 , 首 
次 实现 了 人 全程, 动态、 即时 、 直 观 地 展现 中 国 春节 前 后 人 口 大 迁徙 的 轨迹 与 特征 。 

最 新 版 “百度 迁徙 "于 2015 年 2 月 15 日 上 线 , 一 个 新 的 亮 是 加 入 了 “百度 慧眼 " 功 
能 ,可 以 看 到 全 国 范 围 内 的 飞机 实时 动态 和 位 置 , 单 击 要 查询 的 航班 图 标 ,还 可 以 查看 航班 
的 具体 信息 ,包括 起 降 时 间 、 飞 机 型 号 和 机 龄 等 ,如 图 11-6 所 示 


Diea TT 
=S sesucen è -[n is x || =s 




























4. 旅游 信息 统计 与 预测 


在 旅游 信息 预测 方面 ,九寨沟 景区 通过 与 百度 大 数据 的 合作 ,利用 百度 大 数据 提供 的 客 
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流量 预测 服务 ,在 景区 网 站 进行 实时 客流 量 预测 呈现 ,提前 预知 当日 及 未 来 2 日 九寨 沟 客 流 
量 , 方 便 游 客 进行 行 前 决策 ; 同时 景区 结合 百度 预测 结果 ,制订 不 同 客 流量 下 景区 安全 运营 
人 力 及 运力 安排 方案 ,在 旅游 小 长 假 及 黄金 周 有 效 进行 相应 安排 及 游客 跑 导 , 提 升 景区 运营 
效率 及 游客 游览 体验 。 随 着 全 国 更 多 景区 与 百度 的 合作 ,在 百度 预测 中 ,游客 可 以 看 到 全 国 
范围 内 很 多 景区 的 信息 预测 结果 ,具体 见 本 章 。 

5. 百度 指数 

百度 指数 (http://index. baidu. com/) 是 以 百度 海量 网 民 行 为 数据 为 基础 的 数据 分 享 
平台 ,是 当前 互联 网 时 代 重 要 的 统计 分 析 平 台 之 一 ,自发 布 之 日 便 成 为 众多 企业 营销 决策 的 
重要 依据 。 百 度 指数 能 够 告诉 用 户 : 某 个 关键 词 在 百度 的 搜索 规模 有 多 大 .一段 时 间 内 的 
涨 跌 态 势 以 及 相关 的 新 闻 和 与 论 变 化 .关注 这 些 词 的 网 民 是 什么 样 的 ,分 布 在 哪里 .同时 还 搜 
索 了 哪些 相关 的 关键 词 ,以 此 来 帮助 用 户 优 化 数字 营销 活动 方案 。 

例如 ,通过 百度 指数 对 "2016 北京 车 展 "进行 分 析 , 得 到 如 图 11-7 所 示 的 分 析 结 果 。 图 
中 显示 了 车 展 每 天 的 网 民 搜 索 指数 , 随 着 车 展 的 进行 .搜索 指数 是 在 上 升 的 。 














图 11-7 “2016 北京 车 展 "百度 搜索 指数 分 析 结 果 


11.2.4 百度 预测 的 使 用 方法 


1. 景点 预测 
通过 输入 网 址 “http://trends. baidu. com/”, 进 入 “百度 预测 ”首页 ,然后 单 击 “ 景 点 预 


测 "按钮 @ ,进入 "景点 预测 "界面 ,如 图 11-8 所 示 , 上 默认 的 界面 为 全 国 热点 景区 预测 结果 。 


在 该 界面 下 , 单 击 已 出 现 的 景区 ,如 北京 故宫", 可 以 看 到 该 景点 的 拥挤 指数 的 预测 及 
天 气 情况 的 介绍 。 也 可 以 单 击 “30 天 趋势 "按钮 ,进一步 地 查看 该 景点 的 未 来 2 天 的 趋势 预 


测 ,如 图 11-9 所 示 。 

如 果 要 查看 感 兴趣 的 其 他 城市 的 景点 .可 以 通过 在 图 11-8 所 示 的 “景点 预测 "首页 中 右 
上 角 显 示 “ 全 国 ” 的 位 置 ,通过 下 拉 列 表 查 看 其 他 城市 景点 预测 。 

2. 欧洲 赛事 预测 

通过 输入 网 址 “http://trends. baidu. com/”, 进 入 “百度 预测 ”首页 ,然后 单 击 “ 欧 洲 赛 








事 预 测 ? 按 钮 © ,进入 “欧洲 赛事 预测 ”界面 ,如 图 11-10 所 示 。 
Puasa 
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图 11-8 百度 景点 预测 
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图 11-9 北京 故宫 百度 景点 预测 结果 





图 11-10 中 单 击 “意甲 ”按钮 后 .可 以 看 到 当前 “意甲 ”6 场 比赛 的 预测 结果 ,如 果 对 其 
4 趣 , 可 以 进一步 地 查看 针对 这 场 比赛 的 各 种 预测 结果 。 如 单 击 “ 拉 齐 奥 对 弗 
看 到 的 进一步 预测 结果 如 图 11-11 所 示 

11-11 中 可 以 看 到 两 支 球 队 的 该 场 比 赛 的 拉齐奥 胜率 预测 是 47%、 平 局 率 预 测 是 
\ 弗 罗 伦 萨 胜率 预测 是 26% ,还 可 以 看 到 2013 年 至 今 的 球 队 实力 走势 (其 中 整体 位 于 
折线 代表 拉齐奥 ,整体 位 于 上 方 的 曲线 代表 弗 罗 伦 萨 ), 还 有 比分 预测 的 结果 
1 右上 角 的 雷达 图 进一步 地 说 明了 该 场 比赛 的 球 队 实力 、 赛 前 状态 .球场 优势 .联赛 

















等 信息 。 通 过 该 雷达 图 可 以 看 到 拉齐奥 队 与 弗 罗 伦 萨 队 在 球 队 实力 ,联赛 能 力 的 比较 





,在 赛 前 状态 和 球场 优势 的 比较 上 ,拉齐奥 队 更 胜 一 筹 
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图 11-10 百度 欧洲 赛事 预测 一 一 意甲 
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图 11-11 “拉齐奥 对 弗 罗 伦 萨 "的 预测 解析 


11.3 腾讯 大 数据 


11.3.1 腾讯 大 数据 解决 方案 


腾讯 作为 互联 网 企业 ,在 2009 年 开始 探索 建设 大 数据 平台 ,经 过 从 批量 计算 到 实时 计 
算 、 从 离线 查询 到 即席 查询 的 阶段 发 展 , 逐 步 地 形成 一 套 以 TDW( 离 线 计 算 )、TRC( 实 时 计 
算 ) .TDBank( 数 据 接 人 ) .TPR( 精 准 推荐 ) .Gaia( 集 群 调度 ) 为 核心 模块 的 大 数据 体系 一 一 腾讯 
大 数据 套件 ,如 图 11-12 所 示 。 腾 讯 大 数据 套件 由 大 数据 平台 与 集群 控制 台 两 大 平台 构成 。 

(1) 大 数据 平台 面向 数据 开发 人 员 ,整合 各 种 大 数据 基础 系统 ,组 合成 特定 的 数据 流 


水 线 。 
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图 11-12 腾讯 大 数据 套件 


(2) 集群 控制 台面 向 运 维 人 员 ,统一 管理 大 数据 平台 的 系统 ,提供 集群 部 署 与 管控 的 功能 。 
一 条 常用 的 、 完 整 的 大 数据 处 理 流水 线 通 常 由 “ 接 入 、 存 储 、 计 算 、 输 出 、 展 示 ”5 个 环节 


组 成 ,如 图 11-13 所 示 。 
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图 11-13 常用 大 数据 处 理 流水 线 


依据 图 11-13 所 示 的 常用 大 数据 处 理 流程 ,介绍 腾讯 大 数据 平台 如 下 。 

1) 接 入 层 

° 数据 接 入 服务 : 支持 通过 FTP、SFTP、HTTP 协议 从 外 部 接 入 数据 ; 

。 Kafka: 分 布 式 消息 系统 ,作为 平台 的 数据 中 转 站 ,负责 将 接 入 数据 推送 到 若干 下 游 
系统 。 

2) 存储 层 

。 HDFS: Hadoop 分 布 式 文件 系统 ; 

e HBase; 基于 HDFS 的 分 布 式 列 式 数 据 库 ,提供 高 速 的 随机 读 写 能 力 ; 

。 PGXZ: 分 布 式 PostgreSQL 数据 库 系统 。 通 过 数据 库 事务 分 流 、 数 据 分 布 式 存储 以 
及 并 行 计算 ,提高 数据 库 的 性 能 和 稳定 性 ; 

。 TPG: 基于 传统 数据 库 PostgreSQL 改造 .主要 承担 小 规模 数据 的 处 理 、 对 大 规模 数 
据 框 架 的 补充 。 

3) 计算 层 

。 MapReduce: 大 规模 数据 集 的 并 行 计 算 框 架 , 适 合 离线 批量 的 数据 处 理 ; 
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。 Hive: 基于 Hadoop 的 数据 仓库 工具 ,提供 SQL 语言 的 数据 处 理 接口 ; 

。 Pig: 基于 Hadoop 的 大 规模 数据 分 析 平 台 ,提供 脚本 接口 的 数据 处 理 ; 

e Tez; 基于 Hadoop 的 查询 处 理 框架 。 作 为 支撑 Pig, Hive 的 新 一 代 计 算 引 擎 ,大 幅 
提高 查询 性 能 ; 

。 Spark; 新 一 代 的 大 规模 数据 并 行 计算 框架 .充分 利用 集群 内 存 资源 来 分 布 数据 集 ， 
大 幅 提高 计算 性 能 ; 

。JStorm: 实时 流 式 计算 框架 ,对 Hadoop 批量 计算 的 补充 ; 

。 EasyCount: 基于 JStorm 的 流 式 计算 平台 ,提供 SQL 语言 的 编程 接口 。 

4) 输出 层 

° 数据 分 发 服务 : 支持 通过 FTP、SFTP HTTP 协议 将 数据 分 发 到 外 部 ; 

。TDE: 基于 全 内 存 的 分 布 式 存储 系统 。 它 提供 高 效 的 数据 读 写 能 力 ,使 得 流 式 计算 
引擎 产生 的 结果 能 快速 被 外 部 系统 使 用 。 

5) 展示 层 

。 黄金 眼 : 可 视 化 运营 报表 工具 ,提供 标准 化 的 报表 模块 ; 

° 用 户 画 像 : 建立 在 一 系列 真实 数据 之 上 的 目标 用 户 模型 。 

6) 任务 调度 

数据 流水 线 完 成 某 个 数据 处 理 任务 ,不 仅 需要 单个 环节 的 处 理 能 力 , 更 需要 对 各 个 环节 





整体 的 衔接 调度 能 力 。 大 数据 平台 集成 了 腾讯 自 研 的 Lhotse 系统 ,作为 数据 流水 线 的 调度 
编排 中 心 。 


11.3.2 ”相关 实例 
腾讯 广 点 通 (http://e. qq. com/) 是 基于 腾讯 社交 网 络 体系 的 效果 广告 平台 。 通 过 广 点 


通 ,用 户 可 以 在 QQ 空间 .QQ 客户 端 , 微 信 等 诸多 平台 投放 广告 ,进行 产品 推广 。 作 为 主动 
型 的 效果 广告 , 广 点 通 能 够 智能 地 进行 广告 匹配 ,并 高 效 地 利用 广告 资源 。 移 动 互联 网 环境 
下 , 广 点 通 可 覆盖 Android. IOS 系统 ,广告 形式 包括 Banner 广告 . 插 屏 广告 等 诸多 种 类 。 


广 点 通 将 广告 进行 排名 ,排名 越 靠 前 获得 的 曝光 机 会 就 越 大 ,排名 原则 如 图 11-14 所 


示 。 对 于 刚 上 线 的 广告 , 广 点 通 会 赋予 一 个 平均 点 击 率 及 点 击 转化 率 作为 初始 值 。 


排名 越 靠 前 获得 的 曝光 越 多 


广告 进入 审核 分 配 曝 光 
e ©® o o 
曝光 排名 广告 展示 


Ee Z 
广告 效果 数据 影像 竞价 排名 


由 出 价 、 点 击 率 、 转 化 率 共同 决定 
图 11-14 腾讯 广告 排名 原则 


广 点 通 是 最 早 使 用 Spark 的 应 用 之 一 。 腾 讯 大 数据 精准 推荐 借助 Spark 快速 迭代 的 优 




















势 , 实 现 了 在 “数据 实时 采集 、 算 法 实时 训练 .系统 实 时 预测 ”的 全 流程 实时 并 行 算法 ,支持 每 
天 上 百 亿 的 请 求 量 。 利 用 Spark 的 快速 查询 等 优势 ,承担 了 数据 的 即席 查询 工作 ,在 性 能 方 
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面 , 普 遍 比 Hive 高 2—10 倍 。 


本 章 小 结 


本 章 主要 介绍 了 几 个 国内 外 典型 的 大 数据 平台 及 在 此 平台 上 的 相关 具体 应 用 ,包括 
Intel 大 数据 解决 方案 、 百 度 大 数据 解决 方案 和 腾讯 大 数据 解决 方案 。 其 中 Intel 公司 的 大 
数据 解决 方案 针对 各 种 行业 的 大 数据 需求 ,百度 大 数据 主要 针对 生活 中 各 方面 对 大 数据 的 
需求 ,腾讯 大 数据 中 的 广 点 通 是 国内 最 早 应 用 Spark 的 大 数据 应 用 之 一 。 








习题 11 

一 、 填空 题 

1. 腾讯 大 数据 平台 中 的 黄金 眼 是 指 š 

2. Intel Hadoop 中 ,为 整个 平台 提供 全 方位 管理 的 部 分 是 o 

3. 发 布 了 自己 的 Hadoop 商业 发 行 版 (Apache Hadoop Distribution) 的 公司 
是 ° 

4. 百度 大 数据 引擎 的 3 大 组 件 是 。 

5. Intel Hadoop 和 开源 Hadoop 中 实现 了 跨 区 域 数 据 中 心 部 署 的 是 ° 

6. HUK OHO 6 F. — 49% H. ë W J X< Ria b gB i 2k #R h E 18 下 全 
环节 。 

7. 腾讯 广 点 通 是 基于 腾讯 社交 网 络 体系 的 效果 广告 平台 ,是 最 早 使 用 的 应 用 
== 

8. 百度 指数 (http://index. baidu. com/) 是 以 百度 为 基础 的 数据 分 享 平台 。 

二 、 简 答题 


1 
2 
3 
4 


. 简 述 Intel 的 Hadoop 与 开源 Hadoop 的 区 别 。 

. 通过 网 络 实践 ,使 用 “百度 预测 ”, 观 察 赛事 预测 和 景区 预测 的 实时 结果 。 
. 简 述 腾讯 大 数据 解决 方案 中 常用 的 大 数据 流水 线 。 

. 简要 解释 本 章 图 11-11 中 的 雷达 图 。 


. 100TB PB 

.结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 

. 管理 信息 系统 、 网 络 信息 系 统 、 物 联网 系统 、 科 学 实验 系统 

. 被动式 生 成 数据 ,主动 式 生成 数据 ,感知 式 生 成 数据 

.数据 产生 方式 .数据 采集 密度 ,数据 源 .数据 处 理 方式 

.数据 抽取 与 集成 ,数据 分 析 、 数 据 解释 

. Volume, Variety , Velocity. Value, On-Line 

. 基础 层 、 管 理 层 .分 析 层 、 应 用 层 

.数据 采集 、 数 据 存 取 、 基 础 架构 、 数 据 处 理 , 统 计 分 析 、 数 据 挖掘 、 模 型 预测 和 结果 


iD oo — @ m = %@ r = 


呈现 

10. Hadoop.Spark.Storm Apache Drill 

二 、 简 答题 

1. 传统 数据 与 大 数据 的 特点 比较 参见 表 1-1。 

2. 大 数据 在 社会 生活 的 各 个 领域 得 到 了 广泛 的 应 用 ,如 科学 计算 、 金 融 、 社 交 网 络 、 移 
动 数据 、 物 联网 医疗 .网 页 数据 等 。 

3. 4 层 堆 栈 式 技术 架构 参见 图 1-4。 

4. 在 医疗 卫生 行业 ,能够 利用 大 数据 避免 过 度 治 疗 、 减 少 错误 治疗 和 重复 治疗 ,从 而 降 
低 系统 成 本 ,提高 工作 效率 ,改进 和 提升 治疗 质量 。 
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习题 2 答案 


一 、 填空 题 

1. 半 结 构 化 2. 互联 网 数据 3. 互联 网 数据 

4. 快速 化 5. 对 非 结 构 化 数据 的 采集 6. 物 联网 

7. 网 站 公开 API 8. 万 维 网 信息 9. 数据 集成 

10. 数据 清洗 

二 、 简 答题 

1. 大 数据 的 数据 采集 是 在 确定 用 户 目标 的 基础 上 ,针对 该 范围 内 所 有 结构 化 、 半 结构 
化 和 非 结构 化 的 数据 的 采集 。 采 集 后 对 这 些 数据 进行 处 理 ,从 中 分 析 和 挖掘 出 有 价值 的 
信息 。 

2. 传统 的 数据 采集 与 大 数据 的 数据 采集 的 不 同 在 于 数据 来 源 、 数 据 量 ,但 最 终 目 的 都 
是 对 采集 后 的 数据 进行 处 理 , 然 后 挖掘 出 有 价值 的 信息 。 

3. 按照 数据 来 源 划 分 ,大 数据 的 三 大 主要 来 源 为 商业 数据 、 互 联网 数据 与 传感器 数据 。 
其 中 ,商业 数据 来 自 于 企业 ERP( 企 业 资源 计划 ) 系 统 、 各 种 POS 终端 及 网 上 支付 系统 等 业 
务 系 统 ; 互联 网 数据 来 自 于 通信 记录 及 QQ、 微 信 、 微 博 等 社交 媒体 ; 物 联 网 数据 来 自 于 射 
频 识 别 装置 全球 定位 设备 ,传感器 设备 ,视频 监控 设备 等 。 

4. 大 数据 采集 的 技术 方法 主要 包括 系统 日 志 采 集 方法 、 对 非 结 构 化 数据 的 采集 和 其 他 
数据 采集 方法 。 

系统 日 志 采 集 方法 : 很 多 互联 网 企业 都 有 自己 的 海量 数据 采集 工具 ,多 用 于 系统 日 志 
采集 ,如 Hadoop 的 Chukwa、Cloudera 的 Flume, Facebook 的 Scribe 等 。 

对 非 结构 化 数据 的 采集 : 非 结 构 化 数据 的 采集 就 是 针对 所 有 非 结构 化 的 数据 的 采集 ， 
包括 企业 内 部 数据 的 采集 和 网 络 数据 采集 等 。 企 业内 部 数据 的 采集 是 对 企业 内 部 各 种 文 
档 、 视 频 、 音 频 、 邮 件 、 图 片 等 数据 格式 之 间 互 不 兼容 的 数据 采集 。 网 络 数据 采集 是 指 通 过 网 
络 候 虫 或 网 站 公开 API 等 方式 从 网 站 上 获取 互联 网 中 相关 网 页 内 容 的 过 程 ,并 从 中 抽取 出 
用 户 所 需要 的 属性 内 容 。 

其 他 数据 采集 方法 : 对 于 企业 生产 经 营 数 据 或 学 科研 究 数 据 等 保密 性 要 求 较 高 的 数 
据 , 可 以 通过 与 企业 或 研究 机 构 合 作 , 使 用 特定 系统 接口 等 相关 方式 采集 数据 。 

5. 大 数据 预 处 理 的 方法 主要 包括 数据 清洗 .数据 集成 ,数据 变换 和 数据 规约 。 


习题 3 答案 

一 、 填空 题 

1. 对 规模 巨大 的 数据 进行 分 析 2. 数据 挖掘 算法 3. 数据 预 处 理 
4. 知识 计算 5. 知识 库 6. 特征 图 

7. 对 在 线 数据 的 实时 处 理 8. Hadoop 9. Spark 


10. Trinity 


附录 A ”习题 答案 


二 、 简 答题 

1. 整个 处 理 流程 可 以 分 解 为 : 定义 问题 .数据 理解 .数据 采集 数据 预 处 理 、 数 据 分 析 、 
分 析 结果 解析 等 。 

提出 问题 : 制定 具体 需要 解决 的 问题 。 大 数据 理解 : 利用 业务 知识 来 认识 数据 。 大 数 
据 的 采集 : 实现 对 结构 化 和 非 结构 化 数据 的 采集 。 大 数据 的 预 处 理 : 在 数据 导入 时 做 一 些 
简单 的 清洗 ,对 某 些 有 实时 计算 需求 的 业务 进行 流 式 计算 。 大 数据 分 析 : 主要 利用 分 布 式 
数据 库 ,或 者 分 布 式 计 算 集 群 来 对 存储 于 其 内 的 海量 数据 进行 分 析 。 结 果 的 解析 : 对 结果 
的 理解 可 以 通过 可 视 化 和 人 机 交互 等 技术 来 实现 。 

2. 深度 学 习 是 一 种 能 够 模拟 出 人 脑 的 神经 结构 的 机 器 学 习 方式 ,从 而 能 够 让 计算 机 具 
有 人 一 样 的 智慧 。 其 利用 层次 化 的 架构 学 习 出 对 象 在 不 同 层 次 上 的 表达 。 

3. 知识 计算 是 从 大 数据 中 首先 获得 有 价值 的 知识 ,并 对 其 进行 进一步 深入 的 计算 和 分 
析 的 过 程 。 也 就 是 要 对 大 数据 中 先 抽 取出 有 价值 的 知识 ,并 把 它 构建 成 可 支持 查询 、 分 析 与 
计算 的 知识 库 。 

A. 批量 数据 通常 是 数据 体 量 巨大 ,如 数据 从 TB 级 别 跃升 到 PB 级 别 , 且 是 以 静态 的 形 
式 存储 。 这 种 批量 数据 往往 是 从 应 用 中 沉淀 下 来 的 数据 ,如 医院 长 期 存储 的 电子 病历 等 。 
对 这 样 数据 的 分 析 通 常 使 用 合理 的 算法 ,才能 进行 数据 计算 和 价值 发 现 。 

5. 流 式 数据 是 一 个 无 穷 的 数据 序列 ,序列 中 的 每 一 个 元 素来 源 不 同 ,格式 复杂 ,序列 
往往 包含 时 序 特性 。 流 式 数据 处 理 常 见于 服务 器 日 志 的 实时 采集 ,将 PB 级 数据 的 处 理 
时 间 缩 短 到 秒 级 。 数 据 流 中 的 数据 格式 可 以 是 结构 化 的 、 半 结构 化 的 甚至 是 非 结 构 
化 的 。 


习题 4 答案 


一 、 填空 题 

1. 数据 可 视 化 2. 可 视 化 元 素 3. 传递 

4. 可视化 5. 连接 数据 6. 智能 显示 

7. 单个 仪表 板 8. 故事 点 9. 故事 

10 . Tableau Server 

二 、 简 答题 

1. 数据 可 视 化 是 关于 数据 的 视觉 表现 形式 的 科学 技术 研究 。 其 中 ,这 种 数据 的 视觉 表 
现形 式 被 定义 为 一 种 以 某 种 概要 形式 抽 提 出 来 的 信息 ,包括 相应 信息 单位 的 各 种 属性 和 
变量 ， 

大 数据 可 视 化 可 以 理解 为 数据 量 更 加 庞大 、 结 构 更 加 复杂 的 数据 可 视 化 。 

2. 大 数据 可 视 化 的 过 程 主要 有 以 下 9 个 方面 。 

(1) 数据 的 可 视 化 。 

(2) 指标 的 可 视 化 。 

(3) 数据 关系 的 可 视 化 。 

(4) 背景 数据 的 可 视 化 。 

(5) 转换 成 便于 接受 的 形式 。 
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(6) 聚焦 。 

(7) 集中 或 者 汇总 展示 。 

(8) 扫尾 的 处 理 。 

(9) 完美 的 风格 化 。 

3. 在 大 数据 时 代 ,数据 可 视 化 工具 必须 具有 以 下 特性 。 

(1) 实时 性 : 数据 可 视 化 工具 必须 适应 大 数据 时 代数 据 量 的 爆炸 式 增 长 需求 ,快速 地 
收集 分 析 数 据 并 对 数据 信息 进行 实时 更 新 。 

(2) 简单 操作 : 数据 可 视 化 工具 满足 快速 开发 .易于 操作 的 特性 ,能 满足 互联 网 时 代 信 
息 多 变 的 特点 。 

(3) 更 丰富 的 展现 : 数据 可 视 化 工具 需 具 有 更 丰富 的 展现 方式 ,能 充分 地 满足 数据 展 
现 的 多 维度 要 求 。 

(4) 多 种 数据 集成 支持 方式 : 数据 的 来 源 不 仅仅 局 限于 数据 库 ,数据 可 视 化 工具 将 支 
持 团 队 协 作 数 据 、 数 据 仓 库 、 文 本 等 多 种 方式 ,并 能 够 通过 互联 网 进行 展现 。 

4. 在 Tableau 中 连接 数据 : 

(1) 选择 数据 源 : 在 Tableau 的 工作 界面 的 左 侧 显 示 可 以 连接 的 数据 源 。 

(2) 打开 数据 文件 : 这 里 以 Excel 文件 为 例 , 选 择 Tableau 自 带 的 “超市 . xls" 文 件 。 

G) 设置 连接 : 超市 . xls 中 有 3 个 工作 表 , 将 工作 表 拖 至 联接 区 域 就 可 以 开始 分 析 数 


据 了 。 
5. 单 击 “ 故 事 ”"|“ 新 建 故 事 ” 命 令 , 打 开 “ 故 事 ” 视 图 。 从 “仪表 板 和 工作 表 ” 区 域 中 将 视 
图 或 仪表 板 拖 至 中 间 区 域 。 


在 导航 器 中 , 单 击 故事 点 ,可 以 添加 标题 。 单 击 “ 新 空白 点 ”, 添 加 空白 故事 点 ,继续 拖 入 
视图 或 仪表 板 。 单 击 “ 复 制 "按钮 ,创建 当前 故事 点 的 副本 ,然后 可 以 修改 该 副本 。 


习题 5 答案 
一 、 填空 题 

1. 分 布 式 系统 基础 架构 2. 两 3. 分 布 式 文件 系统 

4. 一 个 对 大 型 数据 集 进 行 分 析 和 评估 的 平台 5. 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 
6. 存储 和 传输 7. 数据 收集 系统 8. MapReduce 

二 、 简 答题 


1. 第 一 代 Hadoop 由 一 个 分 布 式 文件 系统 HDFS 和 一 个 离线 计算 框架 MapReduce 组 
成 ; 第 二 代 Hadoop 则 包含 一 个 支持 NameNode 横向 扩展 的 HDFS, 一 个 资源 管理 系统 
Yarn 和 一 个 运行 在 Yarn 上 的 离线 计算 框架 MapReduce。 

2. 参见 表 5-2。 

3. Hadoop 从 数据 处 理 的 角度 看 ,存在 一 定 问题 。MapReduce 目前 存在 问题 的 本 质 原 
因 是 其 擅长 处 理 静 态 数据 .处 理 海量 动态 数据 时 必 将 造成 高 延迟 。 由 于 MapReduce 的 模型 
比较 简单 ,造成 后 期 编程 十 分 困难 .一 个 简单 的 计数 程序 也 需要 编写 很 多 代码 。 
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习题 6 答案 


一 、 填空 题 
1. Hadoop 
4. API 
7. DataNode 
10. Common 
二 、 简 答题 
1. Metadata 是 元 数据 .元 数据 信息 包括 名 称 空间 、 文 件 到 文件 块 的 映射 ,文件 块 到 
DataNode 的 映射 三 部 分 。 
NameNode 是 HDFS 系统 中 的 管理 者 ,负责 管理 文件 系统 的 命名 空间 ,维护 文件 系统 
的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 在 一 个 Hadoop 集群 环境 中 ,一 般 只 有 一 个 
NameNode, 它 成 为 了 整个 HDFS 系统 的 关键 故障 点 ,对 整个 系统 的 运行 有 较 大 的 影响 。 
Secondary NameNode 是 以 备 NameNode 发 生 故 障 时 进行 数据 恢复 。 它 的 职责 是 合并 
NameNode 的 edit logs 到 fsimage 文件 中 。 
DataNode 是 HDFS 文件 系统 中 保存 数据 的 节点 。 根 据 需要 存储 并 检索 数据 块 , 受 客 
户 端 或 NameNode 调度 ,并 定期 向 NameNode 发 送 它们 所 存储 的 块 的 列表 。 
Client 是 客户 端 , HDFS 文件 系统 的 使 用 者 。 它 通过 调用 HDFS 提供 的 API 对 系统 中 
的 文件 进行 读 写 操作 。 
块 是 HDFS 中 的 存储 单位 ,默认 为 64MB, fE HDFS 中 文件 被 分 成 许多 一 定 大 小 的 分 
块 ,作为 单独 的 单元 存储 。 
2. (1) 高 效 的 硬件 响应 。(2) 流 式 数据 访问 。(3) 大 规模 数据 集 。(4) 简 单 的 一 致 性 模 
型 。(5) 异 构 软 硬件 平台 间 的 可 移植 性 。 
3. (1) ROD: NameNode 是 管理 者 ,对 Metadata 元 数据 进行 管理 。 
(2) ERO: 当 NameNode 发 生 故 障 时 ,使 用 Secondary NameNode 进行 数据 恢复 。 
G) ERO: HDFS 中 的 文件 通常 被 分 割 为 多 个 数据 块 , 以 完 余 备份 的 形式 存储 在 
多 个 DataNode 中 。 
(4) ERO: NameNode 中 保存 了 每 个 文件 与 数据 块 所 在 的 DataNode 的 对 应 关系 ， 
并 管理 文件 系统 的 命名 空间 。DataNode 定期 向 NameNode 报告 其 存储 的 数据 
块 列表 .以 备 使 用 者 直接 访问 DataNode 获得 相应 的 数据 。DataNode 还 周期 性 
的 向 NameNode 发 送 心 跳 信和 号 提示 是 否 工作 正常 。 
(5) ERO: Client 是 HDFS 文件 系统 的 使 用 者 ,在 进行 读 写 操作 时 ,Client 需要 先 
从 NameNode 获得 文件 存储 的 元 数据 信息 。 
(6) 连 线 @O: Client 与 相应 的 DataNode 进行 数据 读 写 操作 。 
4. (1) Client 向 NameNode 发 送 读 请 求 ( 连 线 @ ) 。 
(2) NameNode 查看 Metadata 信息 ,返回 File A 的 Block 的 位 置 ( 连 线 @) 。 
Blockl 位 置 : host2 ,hostl ,host3; Block2 位 置 : host7,host8,host4。 
(3) Block 的 位 置 是 有 先后 顺序 的 , 先 读 Blockl ,再 读 Block2。 而 且 Blockl 去 host2 


. 分 布 式 文件 系统 3. 存储 
NameNode 6. Secondary NameNode 
主 从 9. NameNode 
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上 读 取 ; 然后 Block2 去 host7 上 读 取 。 
5. (1) Client 将 FileA 按 64MB 分 块 。 分 成 两 块 ,Blockl 和 Block2。 


(4) Client 向 DataNode 发 送 Block1, 发 送 过 程 是 以 流 式 写 信 。 流 式 写 入 过 程 如 下 。 


(2) Client 向 NameNode 发 送 写 数据 请 求 ( 连 线 @)。 
(3) NameNode 记录 着 Block 信息 ,并 返回 可 用 的 DataNode( 连 线 @)。 











Blockl 位 置 : host2 ,hostl ,host3 可 用 ; Block2 位 置 : host7,host8,host4 可 








Q 将 64MB 的 Blockl 按 64KB 大 小 划分 成 package, 

© Client 将 第 一 个 package 发 送 给 host2。 

@ host2 接收 完 后 ,将 第 一 个 package 发 送 给 hostl; 同时 Client 向 host2 发 送 
第 二 个 package。 

@ hostl 接收 完 第 一 个 package 后 ,发 送 给 host3; 同时 接收 host2 发 来 的 第 二 
个 package。 

© 以 此 类 推 ,直到 将 Blockl 发 送 完毕 。 

© host2 ,hostl、host3 向 NameNode,host2 向 Client 发 送 通知 ,说 明 消 息 发 送 
完毕 。 

@ Client 收 到 host2 发 来 的 消息 后 ,向 NameNode 发 送 消息 ,说 明 写 操作 完成 。 
这 样 就 完成 Blockl 的 写 操作 , 

® 发 送 完 Blockl 后 ,再 向 host7 .host8 .host4 发 送 Block2 。 

@ 发 送 完 Block2 后 ,host7、host8 host4 向 NameNode host7 向 Client 发 送 
通知 。 

D Client 向 NameNode 发 送 消 息 , 说 明 写 操作 完成 。 


习题 7 答案 


一 、 填空 题 


o o — @ m = Q rs = 


.面向 大 数据 并 行 处 理 的 计算 模型 .框架 和 平台 
.结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 
.Master/Slave( 主 /从 ) 

. 把 一 个 函数 应 用 于 集合 中 的 所 有 成 员 

.对 多 个 进程 或 者 独立 系统 并 行 执行 

. Split 

. 混合 、 分 区 、 排 序 、 复 制 及 合并 

映射 


10. Tasks( 任 务 ) 
二 、 简 答题 


1. MapReduce 功能 是 采用 分 而 治之 的 思想 ,把 对 大 规模 数据 集 的 操作 ,分 发 给 一 个 3 





Hr 


节点 管理 下 的 各 个 分 节点 共同 完成 ,然后 通过 整合 各 个 节点 的 中 间 结 果 , 得 到 最 终结 果 。 
2. 易于 使 用 ; 良好 的 伸缩 性 ; 大 规模 数据 处 理 。 
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3. (1) Jobtracker 是 Mapreduce 的 集中 处 理 点 ,存在 单 点 故障 。 
(2) Jobtracker 完成 了 太 多 的 任务 ,造成 了 过 多 的 资源 消耗 , 当 Job 非常 多 的 时 候 ， 
会 造成 很 大 的 内 存 开销 .增加 了 Jobtracker 失败 的 风险 。 
(3) 在 Tasktracker 端 , 以 Map/Reduce Task 的 数目 作为 资源 的 表示 过 于 简单 , 没 
有 考虑 到 CPU 内 存 的 占用 情况 ,如 果 两 个 大 内 存 消耗 的 Task 被 调度 到 了 一 
块 ,容易 出 现 内 存 溢出 。 
(4) 在 Tasktracker 端 , 把 资源 强制 划分 为 Map Task 和 Reduce Task, 如 果 当 系统 
中 只 有 Map Task 或 者 只 有 Reduce Task 的 时 候 , 会 造成 资源 的 浪费 。 
(5) 源 代 码 层面 分 析 的 时 候 , 会 发 现代 码 非 常 的 难 读 。 
(6) 从 操作 的 角度 来 看 ,MapReduce 在 比如 Bug 修复 .性 能 提升 和 特性 化 等 并 不 重 
要 的 系统 更 新 时 ,都 会 强制 进行 系统 级 别 的 升级 。Mapreduce 不 考虑 用 户 的 喜 
好 ,强制 让 分 布 式 集群 中 的 每 一 个 Client 同时 更 新 。 
4. (1) MapReduce 在 客户 端 启 动 一 个 作业 。 
(2) Client 向 JobTracker 请 求 一 个 JobID 。 
(3) Client 将 需要 执行 的 作业 资源 复制 到 HDFS 上 。 
(4) Client 将 作业 提交 给 JobTracker。 
(5) JobTracker 在 本 地 初始 化 作业 。 
(6) JobTracker 从 HDFS 作业 资源 中 获取 作业 输入 的 分 割 信息 ,根据 这 些 信息 将 作 
业 分 割 成 多 个 任务 。 
(7) JobTracker 把 多 个 任务 分 配给 在 与 JobTracker 心跳 通信 中 请 求 任务 的 
TaskTracker。 
(8) TaskTracker 接收 到 新 的 任务 之 后 会 首先 从 HDFS 上 获取 作业 资源 ,包括 作业 
配置 信息 和 本 作业 分 片 的 输入 。 
(9) TaskTracker 在 本 地 登录 子 JVM。 
(10) TaskTracker 启动 一 个 JVM 并 执行 任务 ,并 将 结果 写 回 HDFS, 
5. MapReduce 架构 由 4 个 独立 节点 组 成 ,分 别 为 Client JobTracker TaskTracker 和 
HDFS, 其 中 : 
(1) Client: 用 来 提交 MapReduce 作业 。 
(2) JobTracker: 用 来 初始 化 作业 分配 作业 并 与 TaskTracker 通信 并 协调 整个 作业 。 
(3) TaskTracker: 将 分 配 过 来 的 数据 片段 执行 MapReduce 任务 , 并 保持 与 





JobTracker 通信 。 
(4) HDFS: 用 来 在 其 他 节点 间 共 享 作业 文件 。 
习题 8 答案 
一 、 填空 题 
1. Hbase 2. 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 


3. 易 扩 展 性 、 灵 活 的 数据 模型 高 可 用 性 4. Consistency ,一致 性 
5. 范围 6. 大 数据 缓存 7. 映射 关系 
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8. 列 9. 面向 文档 存储 10. 图 形 存储 

二 、 简 答题 

1. NoSQL 即 Not Only SQL ,是 指数 据 管理 方式 不 仅仅 只 限于 关系 型 。NoSQL 越 来 
越 多 地 被 认为 是 关系 型 数据 库 的 可 行 蔡 代 品 ,特别 适用 于 大 数据 的 存储 。 传 统 的 关系 型 数 
据 库 因 其 对 数据 模式 的 约束 程度 高 和 对 分 布 式 存储 的 支持 度 差 等 因素 ,已 经 无 法 满足 复杂 、 
海量 的 数据 存储 。NoSQL 数据 存储 方案 就 可 以 针对 目前 数据 表现 出 的 数量 大 、 结 构 复 杂 、 
格式 多 样 , 存 储 要 求 不 一 致 等 特点 ,表现 出 良好 的 特性 。 

2. CAP, 即 一 致 性 (Consistency)、 可 用 性 (Availability) 和 分 区 容错 性 (Partition 
Tolerance) 。 对 于 分 布 式 数据 系统 ,分 区 容忍 性 是 基本 要 求 ,那么 在 一 致 性 和 可 用 性 之 间 就 
必须 进行 取舍 ,因为 如 果 严 格 地 遵从 强 一 致 性 ,就 会 使 得 系统 无 限制 的 进行 数据 计算 和 处 
理 , 这 样 就 会 严重 地 影响 数据 的 可 用 性 。 

3. 包括 范围 分 区 、 列 表 分 区 和 哈 希 分 区 。 范 围 分 区 是 最 时 出现 的 数据 分 区 算法 ,也 是 
最 为 经 典 的 一 个 。 所 谓 范围 分 区 ,就 是 将 数据 表 内 的 记录 按照 某 个 属性 的 取 值 范围 进行 分 
区 ; 列表 分 区 主要 应 用 于 各 记录 的 某 一 属性 上 的 取 值 为 一 组 离散 数值 的 情况 , 且 数 据 集合 
中 该 属性 在 这 些 离散 数值 上 的 取 值 重复 率 很 高 。 采 用 列表 分 区 时 ,可 以 通过 所 要 操作 的 
数据 直接 查找 到 其 所 在 分 区 ; 哈 希 分 区 需要 借助 哈 希 函数 ,首先 把 分 区 进行 编号 ,然后 通 
过 哈 希 函数 来 计算 确定 分 区 内 存储 的 数据 。 这 种 方法 要 求 数据 在 分 区 上 的 分 布 是 均 
匀 的 。 

4. 大 数据 缓存 其 实 主要 使 用 的 是 分 布 式 缓存 技术 ,这 项 技术 是 为 了 提高 系统 的 数据 查 
询 性 能 ,在 应 用 程序 和 数据 库 之 间 加 上 一 道 缓冲 屏障 ,将 需要 频繁 访问 的 数据 库 服务 器 设 为 
缓存 ,因为 分 布 式 缓存 可 以 横 跨 多 个 服务 器 ,所 以 可 以 对 其 灵活 地 进行 扩展 。 





习题 9 答案 

一 、 填空 题 

1. 迭代 2. Spark 3. Scala 4. 分 布 式 并 行 

5. 速度 6. 内 存 7. Cluster Manager 8. Data Manager 
9. Spark Runtime 10. 弹性 分 布 式 数据 集 11. RDD 12. Transformation 
13. Action 14. 有 向 无 环 图 15. Spark SQL 16. MLlib 

17. GraphX 18. Spark Streaming 19. RDD 20. 实时 流 数 据 
二 、 简 答题 


1. (1) 抽象 层次 低 ,需要 手工 编写 代码 来 完成 ,用 户 难 以 上 手 使 用 。 
(2) 只 提供 两 个 操作 ,Map 和 Reduce, 表 达 力 欠缺 。 
(3) 处 理 逻辑 隐藏 在 代码 细节 中 ,没有 整体 逻辑 。 
(4) 中 间 结 果 也 放 在 HDFS 文件 系统 中 :中间 结果 不 可 见 , 不 可 分 享 。 
(5) ReduceTask 需要 等 待 所 有 MapTask 都 完成 后 才 可 以 开始 。 
(6) 延 时 长 ,响应 时 间 完 全 没有 保证 ,只 适用 批量 数据 处 理 , 不 适用 于 交互 式 数据 处 
理 和 实时 数据 处 理 。 
(7) 对 于 图 处 理 和 和 迭代 式 数据 处 理性 能 比较 差 。 
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2. 参见 表 9-1。 
3. (1) Hadoop 中 数据 的 抽取 运算 是 基于 磁盘 的 ,中 间 结 果 也 存储 在 磁盘 上 。 所 以 ， 
MapReduce 运算 伴随 着 大 量 的 磁盘 的 I/O 操作 ,运算 速度 严重 受到 了 限制 。 

(2) Spark 将 操作 过 程 中 的 中 间 结 果 存 入 内 存 中 ,下 次 操作 直接 从 内 存 中 读 取 , 省 去 
了 大 量 的 磁盘 1/O 操作 ,效率 也 随 之 大 幅 提 升 。 

4. (1) 底层 的 Cluster Manager 和 Data Manager: Cluster Manager 负责 集群 的 资源 管 

理 ; Data Manager 负责 集群 的 数据 管理 。 

(2) 中 间 层 的 Spark Runtime, 即 Spark 内 核 。 它 包括 Spark 的 最 基本 、 最 核心 的 功 
能 和 基本 分 布 式 算 子 。 

(3) 最 上 层 为 4 个 专门 用 于 处 理 特定 场景 的 Spark 高 层 模块 : Spark SQL、MLlib、 
GraphX 和 Spark Streaming ,这 4 个 模块 基于 Spark RDD 进行 了 专门 的 封装 和 
定制 ,可 以 无 缝 结合 ,互相 配合 。 

5. RDD(Resilient Distributed Datasets) 即 弹性 分 布 式 数据 集 , 可 以 简单 地 把 RDD 理 
解 成 一 个 提供 了 许多 操作 接口 的 数据 集合 ,和 一 般 数据 集 不 同 的 是 ,其 实际 数据 分 布 存 储 在 
磁盘 和 内 存 中 。 

6. Transformation 的 返回 值 是 一 个 RDD, 如 Map、Filter、Union 等 操作 。 它 可 以 理解 
为 一 个 领取 任务 的 过 程 。 如 果 只 提交 Transformation 是 不 会 提交 任务 来 执行 的 ,任务 只 有 
在 Action 提交 时 才 会 被 触发 。 

Action 返回 的 结果 把 RDD 持久 化 起 来 ,是 一 个 真正 触发 执行 的 过 程 。 它 将 规划 以 任 
务 (Job) 的 形式 提交 给 计算 引擎 ,由 计算 引擎 将 其 转换 为 多 个 Task, 然 后 分 发 到 相应 的 计算 
节点 ,开始 真正 的 处 理 过 程 。 

7. Spark 内 核 会 在 需要 计算 发 生 的 时 刻 绘制 一 张 关 于 计算 路 径 的 有 向 无 环 图 ,简称 
DAG。 在 图 中 ,从 输入 中 逻辑 上 生成 A 和 C 两 个 RDD, 经 过 一 系列 Transformation 操作 ， 
逮 辑 上 生成 了 下 ,注意 ,这 时 候 计 算 没 有 发 生 ,Spark 内 核 只 是 记录 了 RDD 的 生成 和 依赖 关 
系 。 当 下 要 进行 输出 (进行 了 Action 操作 ) 时 ,Spark 会 根据 RDD 的 依赖 生成 DAG ,并 从 
起 点 开始 真正 的 计算 。 

8. Spark SQL 作为 Spark 大 数据 框架 的 一 部 分 ,主要 用 于 结构 化 数据 处 理 和 对 Spark 
数据 执行 类 SQL 的 查询 ,并 且 与 Spark 生态 的 其 他 模块 无 颖 结合 。 

9. GraphX 是 构建 于 Spark 上 的 图 计算 模型 ,实现 高 效 健壮 的 图 计算 框架 。GraphX 的 
出 现 使 得 Spark 生态 系统 在 大 图 处 理 和 计算 领域 得 到 了 更 加 的 完善 和 丰富 ,同时 其 与 
Spark 生态 系统 其 他 组 件 进行 很 好 的 融合 ,以 及 强大 的 图 数据 处 理 能 力 , 使 其 广泛 的 应 用 在 
多 种 大 图 处 理 的 场景 中 。 

10. (1) 数据 持久 化 : 将 从 网 络 上 接收 到 的 数据 先 暂 时 存储 下 来 .为 事件 处 理 出 错时 的 

事件 重演 提供 可 能 。 

(2) 数据 离散 化 : 将 数据 其 按时 间 分 片 。 比 如 采用 一 分 钟 为 时 间 间 隔 ,那么 在 连续 
的 一 分 钟 内 收集 到 的 数据 就 集中 存储 在 一 起 。 

(3) 批量 处 理 : 将 持久 化 下 来 的 数据 分 批 进 行 处 理 , 处 理 机 制 套 用 RDD 模式 。 
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习题 10 答案 


一 、 填空 题 

1. 基础 设施 即 服务 2. 开发 环境 3. 虚拟 

4. 逻辑 网 络 5. 一 致 化 原则 6. 混合 云 

7. 按 需 获取 8. 虚拟 化 技术 9. 终端 用 户 

10. 硬件 和 软件 

二 、 简 答题 

1. 云 计算 是 一 种 用 于 对 可 配置 共享 资源 池 ( 网 络 . 服 务 器 存储、 应 用 和 服务 ) 通 过 网 络 
方便 的 、 按 需 获 取 的 模型 , 它 可 以 以 最 少 的 管理 代价 或 以 最 少 的 服务 商 参与 ,快速 地 部 署 与 
发 布 。 

2. 规模 经 济 性 、 强 大 的 虚拟 化 能 力 、 高 可 靠 性 、 高 可 扩展 性 、 通 用 性 强 、 按 需 服 务 、 价 格 
低廉 、 支 持 快速 部 署 业 务 。 

3. 基础 设施 即 服务 (IaaS) ,平台 即 服 务 (PaaS) 、 软 件 即 服 务 (SaaS) 是 云 计算 的 3 种 应 
用 服务 模式 。 

4. 公有 云 . 私 有 云 和 混合 云 。 

5. 把 有 限 的 、 固 定 的 资源 根据 不 同 需求 进行 重新 规划 以 达到 最 大 利用 率 的 思路 ,在 IT 


领域 就 称 为 虚拟 化 技术 。 
习题 11 答案 
一 、 填 空 题 
1. 可 视 化 运营 报表 工具 ,自助 创建 数据 报表 2. Intel Hadoop 管理 器 
3. Intel 4. 百度 大 脑 、 数 据 工厂 、 开 放 云 
5. Intel Hadoop 6. 接 入 -存储 -计算 -输出 -展示 
7. Spark 8. 海量 网 民 行为 数据 
二 、 简 答题 


1. Intel 的 Hadoop 发 行 版 针对 现 有 实际 案例 中 出 现 的 问题 进行 了 大 量 改进 和 优化 ,这 
些 改进 和 优化 弥补 了 开源 Hadoop 在 实际 案例 中 的 缺陷 和 不 足 , 并 且 提 升 了 性 能 ,具体 见 
表 11-1。 

2. 通过 浏览 器 输入 网 址 “http://trends. baidu. com/”, 进 入 该 网 站 ,分 别 选 择 “ 赛 事 预 
测 ” 和 “景区 预测 ”按钮 ,选择 相应 比赛 和 景区 ,查看 实时 结果 。 

3. 一 条 常用 的 、 完 整 的 大 数据 处 理 流水 线 通常 由 * 接 人 -存储 -计算 -输出 -展示 ”五 个 环 
节 组 成 。 甚 中 , 接 人 层 包 括 数据 接 人 服务 .Kafka; 存储 层 包 括 HDFS, HBase, PGXZ, TPG; 
计算 层 包 括 MapReduce, Hive, Pig, Tez 等 ; 输出 层 包 括 数据 分 发 服务 .TDE; 展示 层 包 括 
黄金 眼 、 用 户 画 像 。 

4. 通过 该 雷达 图 可 以 看 到 拉齐奥 队 与 弗 罗 伦 萨 对 在 球 队 实 力 、 联 赛 能 力 的 比较 上 相 
当 , 在 赛 前 状态 和 球场 优势 的 比较 上 ,拉齐奥 队 更 胜 一 筹 。 
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